下面的代码片段演示了如何使用Beautiful Soup解析HTML文件并获取所有的和标签。
from bs4 import BeautifulSoup
with open("sample.html") as fp:
soup = BeautifulSoup(fp, "html.parser")
# 查找所有标签
links = soup.find_all("a")
for link in links:
print(link.get("href"))
# 查找所有
标签
images = soup.find_all("img")
for image in images:
print(image.get("src"))
如果你的代码中仍然未列出所有标签,你可以尝试使用其他Beautiful Soup的方法(如find
, find_next_sibling
, find_parent
等方法)以获取你需要的标签。此外,你也可以尝试使用正则表达式或其他解析库(如lxml)以获取所有标签。