一种可能的情况是在解析HTML时,Beautiful Soup将铭感信息识别成了注释。通过查看源代码,可以看到类似于以下的内容:
在Beautiful Soup使用时,可以使用 .contents
属性来检查HTML文档的子项。如果 .contents
属性返回的是字符串类型,那么这个子项在解析过程中被划分为注释。
下面的代码展示了如何将列表项输出到控制台,同时避免将其错误地识别为注释:
from bs4 import BeautifulSoup
html = """
- item 1
- item 2
"""
soup = BeautifulSoup(html, 'html.parser')
for item in soup.select("ul li"):
print(item.text)
输出为:
item 1
item 2