package jsoupking;
import java.io.File;
import java.io.IOException;
import java.io.PrintWriter;
import java.lang.reflect.Array;
import java.util.ArrayList;
import java.util.LinkedList;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class urlmng {
public static void main(String[] args) {
// TODO Auto-generated method stub
// 서원대학교 연혁 페이지 주소
String url = "http://www.seowon.ac.kr/web/kor/intro_b_01";
try {
// 도큐먼트에 해당url을 연결하여 넘겨줌
Document doc = Jsoup.connect(url).get();
// dl.history-list하위에 dt태그를 순차적으로 읽어옴
Elements elsimage = doc.select("dl.history-list dt");
// dl.history-list하위에 li태그를 순차적으로 읽어옴
Elements elsyear = doc.select("dl.history-list li");
// 디렉터리 없다면 생성
File dir = new File("C:/", "서원대학교파싱");
if (!dir.exists()) {
dir.mkdir();
}
// 생성된 디렉터리로 파일생성
PrintWriter pw = new PrintWriter("C:/서원대학교파싱/연혁페이지파싱1.txt");
LinkedList<String> nlist = new LinkedList<String>();
for (Element el : elsimage) {
// 도메인 + dt태그 (하위에 img태그 속성src를 읽어옴) 파일에 write
if (!nlist.contains("http://www.seowon.ac.kr"
+ el.getElementsByTag("img").attr("src")) == true) {
nlist.add("http://www.seowon.ac.kr"
+ el.getElementsByTag("img").attr("src")+ " " + el.getElementsByTag("img").attr("alt"));
}
}
for (Element el1 : elsyear) {
if (!nlist.contains(el1.text()) == true) {
if(el1.elementSiblingIndex() ==0){
nlist.add("");
}
nlist.add(el1.text());
}
}
while(nlist.peek() != null){
pw.println(nlist.poll());
}
pw.close();
// dl.history-list하위로 li태그가 존재함 li태그 하위에 존재하는 것들 모두가져옴
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
'JAVA > 자바' 카테고리의 다른 글
자바 한글인코딩 (0) | 2015.06.11 |
---|---|
자바 리스트 중복제거하는법 contains (0) | 2015.05.28 |
자바 URL주소로 이미지 저장 (0) | 2015.05.08 |
자바 쓰레드 Runnable (0) | 2015.03.19 |
자바 쓰레드 Thread (0) | 2015.03.19 |