[jQuery] RSS를 이용한 신문기사 크롤링(Crawling)하기 [신문사 RSS URL을 통한 XML 파싱하기]

2022. 3. 25. 17:08·◎ JavaScript/jQuery🌊
728x90


1. 크롤링을 할 RSS URL 검색(참고 : 한겨레 RSS서비스)

 

RSS서비스 : 한겨레

RSS서비스 : 한겨레

www.hani.co.kr


참고 : 한겨레 RSS서비스
한겨레 기사 중 국제 파트 RSS로 결정!


2. RSS URL을 이용한 신문기사 크롤링하기

- it.java

package controller;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URL;

import javax.servlet.ServletException;
import javax.servlet.annotation.WebServlet;
import javax.servlet.http.HttpServlet;
import javax.servlet.http.HttpServletRequest;
import javax.servlet.http.HttpServletResponse;

@WebServlet("/it")
public class It extends HttpServlet{

	@Override
	protected void service(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException {
		String rss = req.getParameter("rss");
		rss = rss == null ? "https://www.hani.co.kr/rss/international" : rss;

		URL url = new URL(rss);
		BufferedReader br = new BufferedReader(new InputStreamReader(url.openStream()));
		resp.setContentType("text/xml; charset=utf-8");
		
		String s = null;
		while((s = br.readLine()) != null) {
			resp.getWriter().println(s);
		}
	}
}

- xmlParsing.jsp

<%@ page language="java" contentType="text/html; charset=UTF-8"
    pageEncoding="UTF-8"%>
<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<title>Insert title here</title>
<script src="https://cdnjs.cloudflare.com/ajax/libs/jquery/3.6.0/jquery.min.js" integrity="sha512-894YE6QWD5I59HgZOGReFYm4dnWc1Qt5NtvYSaNcOP+u1T9qYdvdihz0PPSiiqn/+/3e7Jo4EaG7TubfWGUrMQ==" crossorigin="anonymous" referrerpolicy="no-referrer"></script>
<script>
$(function() {	
	$.get("it", {rss:'https://www.hani.co.kr/rss/international'}, function(data) {
		console.log(data);
		var dataXml = $.parseXML(data);
		console.log(dataXml);
		
	var str = "<table border='1'>"	
	$(dataXml).find("item").each(function() {
			var title = $(this).find("title").text();
			var link = $(this).find("link").text();
			var description = $(this).find("description").text();
			var pubDate = $(this).find("pubDate").text();
			
			str += "<tr>"
			str += "<td><a href='" + link + "'>" + title + "</a></td>"
			str += "<td>" + pubDate + "</td>"
			str += "</tr>"
			
			console.log(title, link, description, pubDate);
		})
	str += "</table>"
	
	$("body").append(str);
	}, "text")
})
</script>
</head>
<body>
</body>
</html>

 

RSS URL을 통한 신문기사 크롤링 완료!
개발자 도구(F12)로 콘솔 로그 확인
기사제목 클릭 시, 해당 기사 URL로 연결!

728x90
'◎ JavaScript/jQuery🌊' 카테고리의 다른 글
  • [jQuery] jQuery 이벤트: show(), hide() [p태그 보이기, 숨기기 버튼 만들기]
  • [jQuery] ready 함수와 이벤트 바인딩(evnet binding) [jQuery ready 함수, window.onload]
  • [jQuery] Ajax 사용하기(비동기 처리) [jQuery로 비동기 처리하기]
  • [jQuery] 쿠키(cookies) 생성하기 [jQuery 활용하여 쿠키 생성하기]
예르미(yermi)
예르미(yermi)
끊임없이 제 자신을 계발하는 개발자입니다👨🏻‍💻
  • 예르미(yermi)
    예르미의 코딩노트
    예르미(yermi)
  • 전체
    오늘
    어제
    • 분류 전체보기 (937)
      • ◎ Java (133)
        • Java☕ (93)
        • JSP📋 (26)
        • Applet🧳 (6)
        • Interview👨🏻‍🏫 (8)
      • ◎ JavaScript (48)
        • JavaScript🦎 (25)
        • jQuery🌊 (8)
        • React🌐 (2)
        • Vue.js🔰 (6)
        • Node.js🫒 (3)
        • Google App Script🐑 (4)
      • ◎ HTML5+CSS3 (17)
        • HTML5📝 (8)
        • CSS3🎨 (9)
      • ──────────── (0)
      • ▣ Framework (67)
        • Spring🍃 (36)
        • Spring Boot🍀 (12)
        • Bootstrap💜 (3)
        • Selenium🌕 (6)
        • MyBatis🐣 (10)
      • ▣ Tools (47)
        • API🎯 (18)
        • Library🎲 (15)
        • JitPack🚀 (3)
        • Jenkins👨🏻 (7)
        • Thymeleaf🌿 (4)
      • ▣ Server (32)
        • Apache Tomcat🐱 (14)
        • Apache HTTP Server🛡️ (1)
        • Nginx🧶 (7)
        • OracleXE💿 (4)
        • VisualSVN📡 (4)
      • ▣ OS : 운영체제 (18)
        • cmd : 명령프롬프트💻 (10)
        • Linux🐧 (8)
      • ▣ SQL : Database (56)
        • Oracle SQL🏮 (26)
        • PL SQL💾 (9)
        • MySQL🐬 (6)
        • MariaDB🦦 (6)
        • H2 Database🔠 (3)
        • SQL 실전문제🐌 (6)
      • ────────── (0)
      • ◈ Human Project (86)
        • Mini : Library Service📚 (15)
        • 화면 설계 [HTML]🐯 (10)
        • 서버 프로그램 구현🦁 (15)
        • Team : 여수어때🛫 (19)
        • Custom : Student🏫 (9)
        • Custom : Board📖 (18)
      • ◈ Yermi Project (40)
        • 조사모아(Josa-moa)📬 (5)
        • Riddle-Game🧩 (6)
        • 맛있을 지도🍚 (2)
        • 어디 가! 박대리!🙋🏻‍♂️ (5)
        • 조크베어🐻‍❄️ (4)
        • Looks Like Thirty🦉 (2)
        • Toy Project💎 (12)
        • 오픈소스 파헤치기🪐 (4)
      • ◈ Refactoring (15)
        • Mini : Library Service📚 (8)
        • 서버 프로그램 구현🦁 (1)
        • Team : 여수어때🛫 (0)
        • 쿼리 튜닝일지🔧 (6)
      • ◈ Coding Test (89)
        • 백준(BOJ)👨🏻‍💻 (70)
        • 프로그래머스😎 (2)
        • 코드트리🌳 (7)
        • 알고리즘(Algorithm)🎡 (10)
      • ◈ Study (102)
        • 기초튼튼 개발지식🥔 (25)
        • HTTP 웹 지식💡 (4)
        • 클린코드(Clean Code)🩺 (1)
        • 디자인패턴(GoF)🥞 (12)
        • 다이어그램(Diagram)📈 (4)
        • 파이썬(Python)🐍 (16)
        • 에러노트(Error Note)🧱 (34)
        • 웹 보안(Web Security)🔐 (6)
      • ◈ 공부모임 (39)
        • 혼공학습단⏰ (18)
        • 코드트리 챌린지👊🏻 (2)
        • 개발도서 100독👟 (8)
        • 나는 리뷰어다🌾 (11)
      • ◈ 자격증 공부 (37)
        • 정보처리기사🔱 (16)
        • 정보처리산업기사🔅 (9)
        • 컴퓨터활용능력 1급📼 (12)
      • ─────────── (0)
      • ◐ 기타 (113)
        • 알아두면 좋은 팁(tip)✨ (46)
        • 개발자의 일상🎈 (44)
        • 개발도서 서평🔍 (10)
        • 개발관련 세미나🎤 (2)
        • 블로그 꾸미기🎀 (9)
        • 사도신경 프로젝트🎚️ (2)
  • 인기 글

  • 최근 댓글

  • 태그

    Oracle
    Java
    SQL
    Database
    꿀팁
    spring
    jsp
    CSS
    일상
    백준
    코딩
    html
    BOJ
    자바스크립트
    Project
    프로그래밍
    Error Note
    백준 티어
    javascript
    코딩 테스트
  • 250x250
  • hELLO· Designed By정상우.v4.10.3
예르미(yermi)
[jQuery] RSS를 이용한 신문기사 크롤링(Crawling)하기 [신문사 RSS URL을 통한 XML 파싱하기]
상단으로

티스토리툴바