发布网友 发布时间:2022-04-06 07:32
共7个回答
热心网友 时间:2022-04-06 09:01
从你给的代码来是Python2。我下面给一个基于Python3的代码,可以参考一下:
rom urllib.request import urlopen;大概的原理是,在Python3下面,抓取到的页面默认是byte类型的(通过第4行输出的结果就可以看出来),我们需要根据网页的实际编码进行处理。本例中给的网页使用的是gb2312。所以,我要先以gbk的格式进行解码(gbk包含了gb2312,能够表示更多的汉语字符),解码后实际上得到的就是unicode码了,由于我的控制台编码设置的是utf8,在打印时系统会自动将字符串从unicode转为utf8,所以第6行控制台打印结果正常;第7行写入文件时也要指定文件的编码格式,我这里选择的是utf8,当然用gbk也是一切正常的,因为这个编码设置的是保存文件的编码,而不是原来那个网页内容的编码了。字符串编码和文件编码不是一回事。打开ccnu.txt发现无乱码。
Python2的代码我不熟。
建议你也在代码中添加print 看控制输出是否正常。如果控制台输出正常,则有可能是在保存页面文件时,没有正确指定内容字符串的encode格式。或者把所有gb2312换为gbk再试试。
反正Python2下面极容易出现汉字乱码,如果能理解编码encode和解码decode的含义,了解Python2的字符串处理过程,就可以避免这些问题。
热心网友 时间:2022-04-06 10:19
读取的时候赋值到一个变量,可以在调试状态看一下是什么类型的,然后直接写到本地文件。或者在写的时候加encode来转换。
热心网友 时间:2022-04-06 11:54
应该是DOCtype问题吧。
热心网友 时间:2022-04-06 13:45
把内容用gb2312解码转成unicode类型。
热心网友 时间:2022-04-06 15:53
你不认识就说是乱码~~ 讨厌。
热心网友 时间:2022-04-06 18:18
decode试一试
热心网友 时间:2022-04-06 20:59
看看网页是不是有压缩