위키피디아에서 원하는 정보 가져오기
이번 수업에서는 파이썬을 사용해 위키피디아의 '인터넷' 페이지에서 데이터를 크롤링하는 방법을 알아보겠습니다.
특히, 페이지의 제목과 본문에서 특정 단락들을 추출하고, 한글 데이터를 올바르게 처리하는 방법을 배웁니다.
웹 페이지 가져오기
먼저, 위키피디아의 '인터넷' 페이지를 가져옵니다.
requests.get()
메서드를 사용해 해당 페이지의 HTML 소스를 불러옵니다.
웹 페이지 가져오기
import requests
# URL 설정
url = 'https://ko.wikipedia.org/wiki/인터넷'
# 웹 페이지 가져오기
response = requests.get(url)
# 응답 상태 코드 확인
print("status_code:", response.status_code)
-
url
변수에 크롤링할 페이지의 주소를 저장합니다. -
requests.get(url)
은 해당 URL의 HTML 소스를 가져옵니다. -
response.status_code
는 요청이 성공했는지 확인하는 데 사용됩니다.
200이면 요청이 성공했음을 의미합니다.
HTML 파싱 및 제목 추출
이제 가져온 HTML을 파싱하고, 페이지의 제목을 추출합니다.
BeautifulSoup
을 사용해 HTML 구조를 분석합니다.
HTML 파싱 및 제목 추출
from bs4 import BeautifulSoup
# HTML 파싱
soup = BeautifulSoup(response.text, 'html.parser')
# 페이지 제목 가져오기
title = soup.find('h1', id='firstHeading').text
print("title:", title)
-
BeautifulSoup(response.text, 'html.parser')
는 HTML 소스를 파싱합니다. -
soup.find('h1', id='firstHeading').text
는 페이지의 제목을 추출합니다.
예시에서는 "인터넷"이라는 제목이 출력됩니다.