본문으로 건너뛰기

동적인 데이터를 처리하는 방법?

JavaScript 동적 데이터 와 크롤링의 한계

requestsBeautifulSoup 라이브러리는 변하지 않는 웹사이트, 즉 정적인 데이터를 크롤링하는 데에 사용됩니다.

하지만 최신 웹사이트들은 사용자와의 상호작용에 따라 데이터를 동적으로 처리합니다. 사용자는 서버에 추가적인 데이터를 요청하고, 서버로부터 받은 응답값을 웹 브라우저의 JavaScript가 처리하여 화면에 이를 표시합니다.

requests 라이브러리는 정적 HTML만을 가져올 수 있고, BeautifulSoup은 가져온 HTML을 파싱하는 데에 사용됩니다.

JavaScript가 생성하거나 변경하는 데이터는 requests로 가져올 수 있는 HTML에 포함되어 있지 않기 때문에, 기존 방식으로는 JavaScript로 처리한 데이터를 크롤링할 수 없습니다.


동적 데이터를 크롤링하는 방법?

하지만 Selenium를 사용하면 실제로 웹 브라우저를 실행시키고, JavaScript가 실행된 후의 DOM을 크롤링할 수 있습니다.

이후 수업에서는 동적인 데이터를 처리하는 Selenium을 사용한 동적 웹 크롤링 기법과 API를 통한 데이터 수집 방법을 다루겠습니다.

(Coming Soon!)