BBC 뉴스 기사 제목 추출하기
매일 아침 전 세계 최신 뉴스를 자동으로 수집하고, 내 이메일로 자동으로 전송받는다면 얼마나 편할까요?
이러한 일을 가능하게 하는 것이 바로 웹 크롤링입니다.
이번 수업에서는 BBC 뉴스 홈페이지에서 최신 기사 제목을 추출하는 실전 프로젝트를 진행해 보겠습니다.
Requests와 BeautifulSoup 복습
웹 페이지에서 정적 데이터(JavaScript로 동적으로 생성되지 않는 데이터)를 가져오기 위해 requests
와 BeautifulSoup
라이브러리를 사용합니다.
requests는 웹 페이지에서 HTML 코드를 가져오는 라이브러리이며, BeautifulSoup는 HTML 코드를 분석해 필요한 정보를 추출합니다.
requests로 BBC 뉴스에 접속하기
웹 크롤링의 첫 번째 단계는 웹 서버에 데이터를 요청하는 것입니다.