package jsoupking;


import java.io.File;

import java.io.IOException;

import java.io.PrintWriter;

import java.lang.reflect.Array;

import java.util.ArrayList;

import java.util.LinkedList;


import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;


public class urlmng {


public static void main(String[] args) {

// TODO Auto-generated method stub

// 서원대학교 연혁 페이지 주소

String url = "http://www.seowon.ac.kr/web/kor/intro_b_01";

try {

// 도큐먼트에 해당url을 연결하여 넘겨줌

Document doc = Jsoup.connect(url).get();

// dl.history-list하위에 dt태그를 순차적으로 읽어옴

Elements elsimage = doc.select("dl.history-list dt");

// dl.history-list하위에 li태그를 순차적으로 읽어옴

Elements elsyear = doc.select("dl.history-list li");


// 디렉터리 없다면 생성

File dir = new File("C:/", "서원대학교파싱");

if (!dir.exists()) {

dir.mkdir();

}

// 생성된 디렉터리로 파일생성

PrintWriter pw = new PrintWriter("C:/서원대학교파싱/연혁페이지파싱1.txt");


LinkedList<String> nlist = new LinkedList<String>();

for (Element el : elsimage) {

// 도메인 + dt태그 (하위에 img태그 속성src를 읽어옴) 파일에 write

if (!nlist.contains("http://www.seowon.ac.kr"

+ el.getElementsByTag("img").attr("src")) == true) {

nlist.add("http://www.seowon.ac.kr"

+ el.getElementsByTag("img").attr("src")+ " " +                                     el.getElementsByTag("img").attr("alt"));

}

}

for (Element el1 : elsyear) {

if (!nlist.contains(el1.text()) == true) {

if(el1.elementSiblingIndex() ==0){

nlist.add("");

}

nlist.add(el1.text());

}

}

while(nlist.peek() != null){

pw.println(nlist.poll());

}

pw.close();

// dl.history-list하위로 li태그가 존재함 li태그 하위에 존재하는 것들 모두가져옴


} catch (IOException e) {

// TODO Auto-generated catch block

e.printStackTrace();

}

}

}



'JAVA > 자바' 카테고리의 다른 글

자바 한글인코딩  (0) 2015.06.11
자바 리스트 중복제거하는법 contains  (0) 2015.05.28
자바 URL주소로 이미지 저장  (0) 2015.05.08
자바 쓰레드 Runnable  (0) 2015.03.19
자바 쓰레드 Thread  (0) 2015.03.19
블로그 이미지

왕왕왕왕

,