실시간으로 풀 리퀘스트 수 크롤링하기
이번 수업은 GitHub의 Django 리포지토리 페이지로부터 풀 리퀘스트(Pull Request)
수를 크롤링하여 화면에 출력해 보겠습니다.
참고로 풀 리퀘스트(Pull Request)는 다른 사용자의 리포지토리에 변경 사항을 제안하는 것을 뜻합니다.
Step 1
웹 페이지 HTML 가져오기
response = requests.get(url)
html_content = response.text
requests.get(url)
: 주어진 URL로부터 웹 페이지의 데이터를 가져옵니다. 여기서는 Django의 GitHub 리포지토리 페이지의 URL입니다.response.text
:requests.get
함수로부터 받은 응답에서 HTML 내용을 문자열로 추출합니다.
Step 2
HTML 파싱
soup = BeautifulSoup(html_content, "html.parser")
BeautifulSoup(html_content, "html.parser")
: 가져온 HTML 컨텐츠(html_content
)를 파싱하기 위해BeautifulSoup
을 사용합니다. 이 작업을 통해 HTML 문서 내의 다양한 요소에 쉽게 접근할 수 있게 됩니다.
Step 3
정보 추출
count = soup.find(id="pull-requests-repo-tab-count").get_text()