以下是使用BeautifulSoup库提取和分组标签/值文本的示例代码:
from bs4 import BeautifulSoup
# HTML代码示例
html = '''
网页标题
主标题
这是一个段落。
- 列表项1
- 列表项2
- 列表项3
'''
# 创建BeautifulSoup对象
soup = BeautifulSoup(html, 'html.parser')
# 提取标题标签的文本
title = soup.title.text
print('网页标题:', title)
# 提取主标题标签的文本
h1 = soup.h1.text
print('主标题:', h1)
# 提取段落标签的文本
p = soup.p.text
print('段落:', p)
# 提取列表项标签的文本
lis = soup.find_all('li')
print('列表项:')
for li in lis:
print(li.text)
输出结果为:
网页标题: 网页标题
主标题: 主标题
段落: 这是一个段落。
列表项:
列表项1
列表项2
列表项3
这个示例演示了如何使用BeautifulSoup库从HTML代码中提取和分组标签/值文本。它首先创建一个BeautifulSoup对象,然后使用对象的属性和方法提取所需的文本。在这个示例中,我们提取了网页标题、主标题、段落和列表项的文本。