[JSP] - jsoup 이용한 웹 크롤링하기 (1)
○ jsoup 이용한 웹 크롤링하기 (1) |
java나 jsp에서 jsoup 라이브러리를 이용하면 쉽게 웹 크롤링을 할 수 있다 java에서는 해당 라이브러리 속성들의 import가 쉽게 되지만 jsp에서는 직접 다 입력해줘야 한다. jsp에서 사용하기 위해서는 아래 첨부한 jsoup.jar 를 WEB-INF - lib 에 넣어줘야 하며 위에 말한 것처럼 속성들을 import 해줘야 한다 <%@ page import="org.jsoup.Jsoup" %> <%@ page import="org.jsoup.nodes.Document" %> <%@ page import="org.jsoup.nodes.Element" %> <%@ page import="org.jsoup.select.Elements" %> 사이트 예시를 들어 설명하는게 이해하기 쉬워 그렇게 진행해보겠다 <%@ page language="java" contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%> <!-- JSP에서 jsoup을 사용하기 위해 import --> <%@ page import="org.jsoup.Jsoup" %> <%@ page import="org.jsoup.nodes.Document" %> <%@ page import="org.jsoup.nodes.Element" %> <%@ page import="org.jsoup.select.Elements" %> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>Insert title here</title> </head> <body> <% // 파싱할 사이트를 적어준다(해당 사이트에 대한 태그를 다 긁어옴) Document doc2 = Jsoup.connect("http://www.playdb.co.kr/magazine/magazine_temp.asp?Page=1&kindno=2&sReqList=&stext=&sort=1").get(); //System.out.println(doc2.data()); //System.out.println(doc2.body());
// list 속성안에 li 요소 데이터들을 긁어온다 Elements posts = doc2.body().getElementsByClass("list"); //System.out.println(doc2.getElementsByClass("list")); Elements file = posts.select("li"); // System.out.println(posts.select("li"));
// li 요소 데이터들 반복적으로 츨력(li 요소 끝날때까지 즉, li개수만큼 반복문) // select() : select()를 통해 더 구석구석 데이터에 접근 // 구성요소.text() : 구성요소 값을 반환(태그는 포함되지 않음) // 구성요소.attr("속성이름") : 구성요소에 "속성이름"에 대한 값을 반환 for(Element e : file){ System.out.println("Title : " + e.select(".tit a").text()); System.out.println("Link : " + e.select(".tit a").attr("href")); // 사이트 링크가 이상하게 올라가있는 관계로 문자열을 다듬어야 한다 // substring을 사용해 원하는 문자열만큼 자르고 앞에 주소부분을 붙여주면 끝 // System.out.println("Link : http://www.playdb.co.kr/magazine/" + e.select(".tit a").attr("href").substring(2, 70)); System.out.println("Image : " + e.select(".thumb img").attr("src")); System.out.println("text : " + e.select(".txt").text()); System.out.println(); } %> </body> </html> 이렇게 하면 아래처럼 원하는 데이터만을 골라올 수 있다 |
'JSP 안드로이드' 카테고리의 다른 글
[안드로이드] - 받아온 JSON 데이터 RecyclerView에 보여주기 (4) (0) | 2018.05.24 |
---|---|
[안드로이드] - JSP에서 안드로이드 JSON 데이터 받아오기 (3) (0) | 2018.05.24 |
[JSP] - jsoup 크롤링 데이터 JSON화 시키기 (2) (0) | 2018.05.24 |