[Library] Jsoup으로 웹 페이지 크롤링(Crawling)하기 [parsing 라이브러리 : Jsoup]

2022. 3. 25. 17:08·▣ Tools/Library🎲
728x90

1. parsing 라이브러리 : Jsoup

- 다운로드 : https://mvnrepository.com/artifact/org.jsoup/jsoup/1.14.3


2. Jsoup으로 웹 페이지 크롤링하기[웹 페이지에 있는 썸네일 저장하기]

- DB 테이블 생성 : TBL_MUSINSA_SAMPLE

크롤링한 데이터를 저장할 테이블 생성

- HTMLParser.java

package app;

import java.io.BufferedInputStream;
import java.io.BufferedOutputStream;
import java.io.File;
import java.io.FileOutputStream;
import java.net.URL;
import java.sql.PreparedStatement;
import java.util.HashMap;
import java.util.Map;

import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import utils.DBConn;

public class HTMLParser {
    public static void main(String[] args) throws Exception{
        Connection conn = Jsoup.connect("https://www.musinsa.com/category/014001");
        Document doc = conn.get();
        Elements elements = doc.select(".li_box");
        
        for(int i = 0; i < elements.size() ; i++) {
            Element el = elements.get(i);
            String no = el.attr("data-no");
            String title = el.selectFirst(".item_title").text();
            String info = el.selectFirst(".list_info").text();
            String price = el.selectFirst(".price").text();
            String link = el.selectFirst(".list_info a").attr("href");
            Element img = el.selectFirst(".list_img img");

            Map<String, String> map = new HashMap<>();
            map.put("no", no);
            map.put("title", title);
            map.put("info", info);
            map.put("price", price);
            map.put("link", link);

            saveDB(map);
            saveFile(no, img.attr("data-original"));
            System.out.println(no + "번 작업 완료");
        }
    }

    static void saveFile(String no, String imgSrc) throws Exception {
        URL url = new URL(imgSrc);

        BufferedInputStream bis = new BufferedInputStream(url.openStream());
        File file = new File("C:\\mu", no);
        if(!file.exists()) {
        	file.mkdirs();
        }

        file = new File(file, "thumb.jpg");
        BufferedOutputStream bos = new BufferedOutputStream(new FileOutputStream(file));

        int b = 0;
        while((b = bis.read()) != -1) {
        	bos.write(b);
        }
        bos.close();
    }

    static void saveDB(Map<String, String> map) throws Exception {
        PreparedStatement pstmt = DBConn.getConnection().prepareStatement(
        		"INSERT INTO TBL_MUSINSA_SAMPLE VALUES(?, ?, ?, ?, ?)");
        pstmt.setString(1, map.get("no"));
        pstmt.setString(2, map.get("title"));
        pstmt.setString(3, map.get("info"));
        pstmt.setString(4, map.get("price"));
        pstmt.setString(5, map.get("link"));
        pstmt.executeUpdate();
        pstmt.close();
    }
}

 

'HTMLParser.java' 실행 / 크롤링 진행
크롤링에 따른 폴더 생성
크롤링 결과 / 웹 페이지 썸네일 이미지 저장
데이터베이스에도 기록 완료!

728x90
'▣ Tools/Library🎲' 카테고리의 다른 글
  • [Library] 히카리 커넥션 풀(Connection pool) 사용하기 [Connection pool 라이브러리, HikariCP]
  • [Library] 자바(Java)에서 썸네일 이미지 만들기 [썸네일 라이브러리, Thumbnailator]
  • [Library] 자바(Java)에서 SMTP 메일 발송하기 [메일 발송 라이브러리 : Javax Mail API]
  • [Library] 자바(Java)로 제이슨(Json) 출력하기 [Json 라이브러리, Gson]
예르미(yermi)
예르미(yermi)
끊임없이 제 자신을 계발하는 개발자입니다👨🏻‍💻
  • 예르미(yermi)
    예르미의 코딩노트
    예르미(yermi)
  • 전체
    오늘
    어제
    • 분류 전체보기 (937)
      • ◎ Java (133)
        • Java☕ (93)
        • JSP📋 (26)
        • Applet🧳 (6)
        • Interview👨🏻‍🏫 (8)
      • ◎ JavaScript (48)
        • JavaScript🦎 (25)
        • jQuery🌊 (8)
        • React🌐 (2)
        • Vue.js🔰 (6)
        • Node.js🫒 (3)
        • Google App Script🐑 (4)
      • ◎ HTML5+CSS3 (17)
        • HTML5📝 (8)
        • CSS3🎨 (9)
      • ──────────── (0)
      • ▣ Framework (67)
        • Spring🍃 (36)
        • Spring Boot🍀 (12)
        • Bootstrap💜 (3)
        • Selenium🌕 (6)
        • MyBatis🐣 (10)
      • ▣ Tools (47)
        • API🎯 (18)
        • Library🎲 (15)
        • JitPack🚀 (3)
        • Jenkins👨🏻 (7)
        • Thymeleaf🌿 (4)
      • ▣ Server (32)
        • Apache Tomcat🐱 (14)
        • Apache HTTP Server🛡️ (1)
        • Nginx🧶 (7)
        • OracleXE💿 (4)
        • VisualSVN📡 (4)
      • ▣ OS : 운영체제 (18)
        • cmd : 명령프롬프트💻 (10)
        • Linux🐧 (8)
      • ▣ SQL : Database (56)
        • Oracle SQL🏮 (26)
        • PL SQL💾 (9)
        • MySQL🐬 (6)
        • MariaDB🦦 (6)
        • H2 Database🔠 (3)
        • SQL 실전문제🐌 (6)
      • ────────── (0)
      • ◈ Human Project (86)
        • Mini : Library Service📚 (15)
        • 화면 설계 [HTML]🐯 (10)
        • 서버 프로그램 구현🦁 (15)
        • Team : 여수어때🛫 (19)
        • Custom : Student🏫 (9)
        • Custom : Board📖 (18)
      • ◈ Yermi Project (40)
        • 조사모아(Josa-moa)📬 (5)
        • Riddle-Game🧩 (6)
        • 맛있을 지도🍚 (2)
        • 어디 가! 박대리!🙋🏻‍♂️ (5)
        • 조크베어🐻‍❄️ (4)
        • Looks Like Thirty🦉 (2)
        • Toy Project💎 (12)
        • 오픈소스 파헤치기🪐 (4)
      • ◈ Refactoring (15)
        • Mini : Library Service📚 (8)
        • 서버 프로그램 구현🦁 (1)
        • Team : 여수어때🛫 (0)
        • 쿼리 튜닝일지🔧 (6)
      • ◈ Coding Test (89)
        • 백준(BOJ)👨🏻‍💻 (70)
        • 프로그래머스😎 (2)
        • 코드트리🌳 (7)
        • 알고리즘(Algorithm)🎡 (10)
      • ◈ Study (102)
        • 기초튼튼 개발지식🥔 (25)
        • HTTP 웹 지식💡 (4)
        • 클린코드(Clean Code)🩺 (1)
        • 디자인패턴(GoF)🥞 (12)
        • 다이어그램(Diagram)📈 (4)
        • 파이썬(Python)🐍 (16)
        • 에러노트(Error Note)🧱 (34)
        • 웹 보안(Web Security)🔐 (6)
      • ◈ 공부모임 (39)
        • 혼공학습단⏰ (18)
        • 코드트리 챌린지👊🏻 (2)
        • 개발도서 100독👟 (8)
        • 나는 리뷰어다🌾 (11)
      • ◈ 자격증 공부 (37)
        • 정보처리기사🔱 (16)
        • 정보처리산업기사🔅 (9)
        • 컴퓨터활용능력 1급📼 (12)
      • ─────────── (0)
      • ◐ 기타 (113)
        • 알아두면 좋은 팁(tip)✨ (46)
        • 개발자의 일상🎈 (44)
        • 개발도서 서평🔍 (10)
        • 개발관련 세미나🎤 (2)
        • 블로그 꾸미기🎀 (9)
        • 사도신경 프로젝트🎚️ (2)
  • 인기 글

  • 최근 댓글

  • 태그

    자바스크립트
    SQL
    코딩 테스트
    jsp
    꿀팁
    Database
    백준 티어
    백준
    일상
    html
    Oracle
    Error Note
    spring
    프로그래밍
    Java
    CSS
    javascript
    BOJ
    코딩
    Project
  • 250x250
  • hELLO· Designed By정상우.v4.10.3
예르미(yermi)
[Library] Jsoup으로 웹 페이지 크롤링(Crawling)하기 [parsing 라이브러리 : Jsoup]
상단으로

티스토리툴바