在使用BeautifulSoup解析HTML时,有时候会遇到忽略空格的情况。为了解决这个问题,可以使用str.strip()
方法来去除字符串两端的空白字符。
下面是一个使用BeautifulSoup解析HTML并忽略空格的示例代码:
from bs4 import BeautifulSoup
# 假设HTML代码如下:
html = '''
这是一段文本。
这是另一段文本。
'''
# 创建BeautifulSoup对象
soup = BeautifulSoup(html, 'html.parser')
# 遍历所有的p标签,并打印其文本内容(忽略空格)
for p in soup.find_all('p'):
print(p.text.strip())
输出结果为:
这是一段文本。
这是另一段文本。
在这个例子中,我们使用p.text.strip()
来获取p标签的文本内容,并使用strip()
方法去除了两端的空格。这样就可以忽略空格,只获取纯文本内容了。