# BeautifulSoup运用
BeautifulSoup是 Python中常用的 HTML 和 XML 解析库,用于从网页的 HTML 中提取特定数据。
# 基本使用流程
安装:
pip install beautifulsoup4加载 HTML 内容:
from bs4 import BeautifulSoup html_doc = """ <html> <head><title>Test Page</title></head> <body> <h1>Hello, World!</h1> <p class="description">This is a paragraph.</p> <a href="https://example.com">Example Link</a> </body> </html> """ soup = BeautifulSoup(html_doc, 'html.parser')常用方法:
获取标题:
print(soup.title.string) # 输出:Test Page获取第一个
<h1>标签:print(soup.h1.text) # 输出:Hello, World!查找所有
<a>标签:links = soup.find_all('a') for link in links: print(link['href']) # 输出:https://example.com通过类名查找标签:
paragraph = soup.find('p', class_='description') print(paragraph.text) # 输出:This is a paragraph.
CSS 选择器: 使用
select()方法按照 CSS 选择器语法查找元素:link = soup.select_one('a') # 获取第一个 `<a>` 标签 print(link['href']) # 输出:https://example.com