本问题可能是由于字符编码错误导致的。可以尝试使用charset转换功能来解决。下面是一个例子,使用Python解析并转换一个字符串:
import requests
import codecs
url = "http://example.com" # 更换为需要转换的网址
response = requests.get(url)
html = response.content
# 尝试转换编码
try:
html = html.decode('utf-8')
except UnicodeDecodeError:
try:
html = html.decode('iso-8859-1')
except UnicodeDecodeError:
html = html.decode('windows-1252')
# 查找编码声明
if 'charset' in response.headers.get('content-type', '').lower():
charset = response.headers['content-type'].split('charset=')[-1]
else:
charset = get_charset(html)
# 尝试转换编码
try:
html = html.encode('latin1').decode(charset)
except UnicodeDecodeError:
html = html.encode('latin1').decode('utf-8', 'ignore')
# 输出转换后的字符串
print(html)
上一篇:部分写入访问权限的文件