HTML 파싱이란?
HTML 파싱
은 HTML 문서에서 데이터를 읽고, 그 구조를 분석하여 프로그램에서 사용할 수 있도록 하는 과정입니다.
이를 통해 웹페이지의 특정 요소를 추출하고 조작할 수 있습니다.
HTML 문서 파싱
-
BeautifulSoup 객체 생성
- 파싱할 HTML 문서와 함께
BeautifulSoup
객체를 생성합니다. - 이 객체를 통해 HTML 요소에 접근하고 조작합니다.
BeautifulSoup 객체 생성from bs4 import BeautifulSoup
html_doc = "<html><head><title>Hello World</title></head><body>...</body></html>"
soup = BeautifulSoup(html_doc, 'html.parser') - 파싱할 HTML 문서와 함께
-
문서 구조 이해
-
HTML 문서는 태그들의 계층적 구조로 이루어져 있습니다.
-
<html>
,<head>
,<body>
,<div>
,<span>
,<p>
등 다양한 태그들이 사용됩니다.
-