用python抓取的网页保存后为什么乱码?

发布网友 发布时间:2022-04-06 07:32

我来回答

7个回答

热心网友 时间:2022-04-06 09:01

从你给的代码来是Python2。我下面给一个基于Python3的代码,可以参考一下:

rom urllib.request import urlopen;  
from urllib.parse import quote;  
rawtext=urlopen('http://www.ccnu.e.cn',timeout=15).read();
print(rawtext)
rawtext=rawtext.decode('gbk')
print(rawtext)  
f=open('ccnu.txt','w',encoding='utf8');
f.write(rawtext)

大概的原理是,在Python3下面,抓取到的页面默认是byte类型的(通过第4行输出的结果就可以看出来),我们需要根据网页的实际编码进行处理。本例中给的网页使用的是gb2312。所以,我要先以gbk的格式进行解码(gbk包含了gb2312,能够表示更多的汉语字符),解码后实际上得到的就是unicode码了,由于我的控制台编码设置的是utf8,在打印时系统会自动将字符串从unicode转为utf8,所以第6行控制台打印结果正常;第7行写入文件时也要指定文件的编码格式,我这里选择的是utf8,当然用gbk也是一切正常的,因为这个编码设置的是保存文件的编码,而不是原来那个网页内容的编码了。字符串编码和文件编码不是一回事。打开ccnu.txt发现无乱码。

Python2的代码我不熟。

建议你也在代码中添加print 看控制输出是否正常。如果控制台输出正常,则有可能是在保存页面文件时,没有正确指定内容字符串的encode格式。或者把所有gb2312换为gbk再试试。

反正Python2下面极容易出现汉字乱码,如果能理解编码encode和解码decode的含义,了解Python2的字符串处理过程,就可以避免这些问题。

热心网友 时间:2022-04-06 10:19

读取的时候赋值到一个变量,可以在调试状态看一下是什么类型的,然后直接写到本地文件。或者在写的时候加encode来转换。

热心网友 时间:2022-04-06 11:54

应该是DOCtype问题吧。

热心网友 时间:2022-04-06 13:45

把内容用gb2312解码转成unicode类型。

热心网友 时间:2022-04-06 15:53

你不认识就说是乱码~~ 讨厌。

热心网友 时间:2022-04-06 18:18

decode试一试

热心网友 时间:2022-04-06 20:59

看看网页是不是有压缩

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com