确保正则表达式的模式正确,可以使用在线工具进行验证,如 https://regex101.com/
在使用正则表达式时,可以先打印出BeautifulSoup结果,检查是否符合期望的格式。例如:
import requests from bs4 import BeautifulSoup import re
URL = "http://example.com" response = requests.get(URL) soup = BeautifulSoup(response.content, "html.parser")
print(soup)
pattern = re.compile(r'
print(matches)
如果正则表达式在BeautifulSoup结果中没有匹配任何结果,可以尝试使用更宽松的模式或使用其他方法提取数据,例如使用CSS选择器或Xpath。
如果仍然无法解决问题,可以考虑使用更好的网络爬虫框架来解决此问题,例如Scrapy。