Python爬虫编码转换如何实现?Python爬虫怎么转换编码

python爬虫产生的实际作用就是访问网站并且把该网站的源代码直接返回过来,而不同的网站采用的编码格式都是不同的,如果不对其进编码转换的话,那么查询出来的数据就全部会变成乱码 。所以这篇文章要来给大家介绍的内容就是,python爬虫转换编码的方法 。

Python爬虫编码转换如何实现?Python爬虫怎么转换编码


1.在python标准库中有一个叫做chardet,它的作用就是能够查看爬虫返回网页内容的编码格式是什么,然后再根据这个编码格式对其进行相应的编码处理 。而首先要做的就是导入模块并且通过requests库调用方法来获取网页内容,详细代码示例如下:
import chardetimport requestsline = http://www.pythontab.comres = requests.get(line)2.上一步操作以及访问了line变量中保存的网站并且抓取源代码将数据返回到了res变量中保存,那现在这个变量的数据类型为字符串,但是里面的内容就是HTML格式的,编码也是根据该网页来决定的 。通过detect()方法即可获取该变量编码格式,示例如下:
encoding_dict = chardet.detect(res)web_encoding = encoding_dict['encoding']3.得到编码格式之后就很简单了,python内有两个函数能够完成编码和解码的操作 。先将返回来的数据按照它们本身的编码格式进行解码操作转为python类型,然后再调用encode()方法执行编码操作全部转为可以识别中文的utf-8编码,代码示例如下:
【Python爬虫编码转换如何实现?Python爬虫怎么转换编码】html = res.decode(str(web_encoding),'ignore').encode('utf-8')以上就是关于“Python爬虫编码转换如何实现?Python爬虫怎么转换编码”的全部内容了,希望对你有所帮助 。

    猜你喜欢