Riucc's Storage
RSS
태그
관리
쓰기
카테고리
  • IT (593)
    • 정리 (0)
    • C# (42)
    • ASP.NET MVC (16)
    • JQuery&Javascript (12)
    • CSS (11)
    • 데이터베이스 (32)
    • Windows Server (6)
    • Active Directory (3)
    • Exchange (9)
    • JAVA (2)
    • JSP (39)
    • JSP 게시판 만들기 (21)
    • JSP 개발 참고 (15)
    • JSP 안드로이드 (4)
    • Servlet (17)
    • Spring (42)
    • HTML (14)
    • NodeJS (46)
    • MongoDB (11)
    • 리눅스 (18)
    • 자료구조 (16)
    • 아이폰 (24)
    • 안드로이드 (68)
    • API 활용하기 (10)
    • 소켓네트워크 (28)
    • 라즈베리파이 (11)
    • AWS클라우드 (10)
    • 빅데이터Hadoop (22)
    • 커널모듈프로그래밍 (8)
    • 기타 (10)
    • 자격증 (26)
Riucc's Storage

[JSP] - jsoup 이용한 웹 크롤링하기 (1)

JSP 안드로이드|2018. 5. 24. 02:27
336x280(권장), 300x250(권장), 250x250, 200x200 크기의 광고 코드만 넣을 수 있습니다.

○ jsoup 이용한 웹 크롤링하기 (1)

 

java나 jsp에서 jsoup 라이브러리를 이용하면 쉽게 웹 크롤링을 할 수 있다

java에서는 해당 라이브러리 속성들의 import가 쉽게 되지만

jsp에서는 직접 다 입력해줘야 한다.


jsp에서 사용하기 위해서는 아래 첨부한 jsoup.jar 를 WEB-INF - lib 에 넣어줘야 하며

위에 말한 것처럼 속성들을 import 해줘야 한다


<%@ page import="org.jsoup.Jsoup" %>

<%@ page import="org.jsoup.nodes.Document" %>

<%@ page import="org.jsoup.nodes.Element" %>

<%@ page import="org.jsoup.select.Elements" %>


사이트 예시를 들어 설명하는게 이해하기 쉬워 그렇게 진행해보겠다



<%@ page language="java" contentType="text/html; charset=UTF-8"

    pageEncoding="UTF-8"%>

<!--  JSP에서 jsoup을 사용하기 위해 import -->

<%@ page import="org.jsoup.Jsoup" %>

<%@ page import="org.jsoup.nodes.Document" %>

<%@ page import="org.jsoup.nodes.Element" %>

<%@ page import="org.jsoup.select.Elements" %>


<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">

<html>

<head>

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

<title>Insert title here</title>

</head>

<body>


<%

        // 파싱할 사이트를 적어준다(해당 사이트에 대한 태그를 다 긁어옴)

  Document doc2 = Jsoup.connect("http://www.playdb.co.kr/magazine/magazine_temp.asp?Page=1&kindno=2&sReqList=&stext=&sort=1").get();


        //System.out.println(doc2.data());

        //System.out.println(doc2.body());

        

        // list 속성안에 li 요소 데이터들을 긁어온다

        Elements posts = doc2.body().getElementsByClass("list");

        //System.out.println(doc2.getElementsByClass("list"));

        Elements file = posts.select("li");

        // System.out.println(posts.select("li"));

        

        // li 요소 데이터들 반복적으로 츨력(li 요소 끝날때까지 즉, li개수만큼 반복문)

        // select() : select()를 통해 더 구석구석 데이터에 접근

        // 구성요소.text() : 구성요소 값을 반환(태그는 포함되지 않음)

        // 구성요소.attr("속성이름") : 구성요소에 "속성이름"에 대한 값을 반환

        for(Element e : file){

        System.out.println("Title : " + e.select(".tit a").text());

        System.out.println("Link : " + e.select(".tit a").attr("href"));

                // 사이트 링크가 이상하게 올라가있는 관계로 문자열을 다듬어야 한다

                // substring을 사용해 원하는 문자열만큼 자르고 앞에 주소부분을 붙여주면 끝

               // System.out.println("Link : http://www.playdb.co.kr/magazine/" + e.select(".tit a").attr("href").substring(2, 70));

        System.out.println("Image : " + e.select(".thumb img").attr("src"));

        System.out.println("text : " + e.select(".txt").text());

        System.out.println();

        }

%>

</body>

</html>


이렇게 하면 아래처럼 원하는 데이터만을 골라올 수 있다




jsoup-1.11.3.jar


저작자표시 (새창열림)

'JSP 안드로이드' 카테고리의 다른 글

[안드로이드] - 받아온 JSON 데이터 RecyclerView에 보여주기 (4)  (0) 2018.05.24
[안드로이드] - JSP에서 안드로이드 JSON 데이터 받아오기 (3)  (0) 2018.05.24
[JSP] - jsoup 크롤링 데이터 JSON화 시키기 (2)  (0) 2018.05.24

댓글()
카테고리
  • IT (593)
    • 정리 (0)
    • C# (42)
    • ASP.NET MVC (16)
    • JQuery&Javascript (12)
    • CSS (11)
    • 데이터베이스 (32)
    • Windows Server (6)
    • Active Directory (3)
    • Exchange (9)
    • JAVA (2)
    • JSP (39)
    • JSP 게시판 만들기 (21)
    • JSP 개발 참고 (15)
    • JSP 안드로이드 (4)
    • Servlet (17)
    • Spring (42)
    • HTML (14)
    • NodeJS (46)
    • MongoDB (11)
    • 리눅스 (18)
    • 자료구조 (16)
    • 아이폰 (24)
    • 안드로이드 (68)
    • API 활용하기 (10)
    • 소켓네트워크 (28)
    • 라즈베리파이 (11)
    • AWS클라우드 (10)
    • 빅데이터Hadoop (22)
    • 커널모듈프로그래밍 (8)
    • 기타 (10)
    • 자격증 (26)
최근 등록 현황
최근 글
최근 월별 글
최근 댓글
최근 글
최근 월별 글
최근 댓글
최근 글
최근 월별 글
최근 댓글
달력
지난달
2025.6
다음달
일월화수목금토
1234567
891011121314
15161718192021
22232425262728
2930
태그 구름
  • 정보처리산업기사 필기 정리
  • jsp
  • 정보처리산업기사 16년 필기
  • 정규형
  • nodejs express
  • 안드로이드 카카오 로그인
  • 소켓 프로그래밍
  • 정보처리산업기사 정리
  • nodejs MySQL 연동하기(Connection Pool)
  • 이클립스 mysql 연동
  • 정규화
  • 커널 모듈 프로그래밍
  • 카카오 로그인 연동
  • 정보처리산업기사 16년
  • 소켓
  • 안드로이드
  • 정보처리산업기사 요약
  • 정보처리산업기사 15년
  • HTML
  • 안드로이드 카카오 로그인 연동
  • 이클립스 디비 연동
  • 정보처리산업기사 총정리
  • 정보처리기사 실기 정리
  • 안드로이드 intent
  • 리눅스
  • 자료구조
  • 정보처리산업기사 15년 필기
  • 데이터베이스
  • 정보처리산업기사 필기
  • 카카오 로그인
카운터
전체 방문자
오늘
어제
Skin by M1REACT. Designed by M1STORY.TISTORY.COM. Valid XHTML 1.0 and CSS 3. Copyright ⓒ Riucc's Storage. All rights reserved.

티스토리툴바