浅谈Python爬取网页的编码处理

脚本专栏 2024/11/16 佚名

3 1 2

背景

中秋的时候，一个朋友给我发了一封邮件，说他在爬链家的时候，发现网页返回的代码都是乱码，让我帮他参谋参谋(中秋加班，真是敬业= =！)，其实这个问题我很早就遇到过，之前在爬小说的时候稍微看了一下，不过没当回事，其实这个问题就是对编码的理解不到位导致的。

问题

很普通的一个爬虫代码，代码是这样的：

# ecoding=utf-8
import re
import requests
import sys
reload(sys)
sys.setdefaultencoding('utf8')

url = 'http://jb51.net/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'
res = requests.get(url)
print res.text

目的其实很简单，就是爬一下链家的内容，但是这样执行之后，返回的结果，所有涉及到中文的内容，全部会变成乱码，比如这样

<script type="text/template" id="newAddHouseTpl">
 <div class="newAddHouse">
  è"<%=url%>" class="LOGNEWERSHOUFANGSHOW" <%=logText%<%=linkText%></a>
  <span class="newHouseRightClose">x</span>
 </div>
</script>

这样的数据拿来可以说毫无作用。

问题分析

这里的问题很明显了，就是文字的编码不正确，导致了乱码。

查看网页的编码

从爬取的目标网页的头来看，网页是用utf-8来编码的。

<meta http-equiv="Content-Type" content="text/html; charset=utf-8">

所以，最终的编码，我们肯定也要用utf-8来处理，也就是说，最终的文本处理，要用utf-8来解码，也就是：decode('utf-8')

文本的编码解码

Python的编码解码的过程是这样的，源文件 ===》 encode(编码方式) ===》decode(解码方式)，在很大的程度上，不推荐使用

import sys
reload(sys)
sys.setdefaultencoding('utf8')

这种方式来硬处理文字编码。不过在某些时候不影响的情况下，偷偷懒也不是什么大问题，不过比较建议的就是获取源文件之后，使用encode和decode的方式来处理文本。

回到问题

现在问题最大的是源文件的编码方式，我们正常使用requests的时候，它会自动猜源文件的编码方式，然后转码成Unicode的编码，但是，毕竟是程序，是有可能猜错的，所以如果猜错了，我们就需要手工来指定编码方式。官方文档的描述如下：

When you make a request, Requests makes educated guesses about the encoding of the response based on the HTTP headers. The text encoding guessed by Requests is used when you access r.text. You can find out what encoding Requests is using, and change it, using the r.encoding property.

所以我们需要查看requests返回的编码方式到底是什么？

# ecoding=utf-8
import re
import requests
from bs4 import BeautifulSoup
import sys
reload(sys)
sys.setdefaultencoding('utf8')

url = 'http://jb51.net/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'

res = requests.get(url)
print res.encoding

打印的结果如下：

ISO-8859-1

也就是说，源文件使用的是ISO-8859-1来编码。百度一下ISO-8859-1，结果如下：

ISO8859-1，通常叫做Latin-1。Latin-1包括了书写所有西方欧洲语言不可缺少的附加字符。

问题解决

发现了这个东东，问题就很好解决了，只要指定一下编码，就能正确的打出中文了。代码如下：

# ecoding=utf-8
import requests
import sys
reload(sys)
sys.setdefaultencoding('utf8')

url = 'http://jb51.net/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'

res = requests.get(url)
res.encoding = ('utf8')

print res.text

打印的结果就很明显，中文都正确的显示出来了。

另一种方式是在源文件上做解码和编码，代码如下：

# ecoding=utf-8
import requests
import sys
reload(sys)
sys.setdefaultencoding('utf8')

url = 'http://jb51.net/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'

res = requests.get(url)
# res.encoding = ('utf8')

print res.text.encode('ISO-8859-1').decode('utf-8')

另：ISO-8859-1也叫做latin1，使用latin1做解码结果也是正常的。

关于字符的编码，很多东西可以说，想了解的朋友可以参考以下大神的资料。

"nofollow" target="_blank" href="http://www.joelonsoftware.com/articles/Unicode.html">The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)》

以上这篇浅谈Python爬取网页的编码处理就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

python,爬取网页

华山资源网 Design By www.eoogi.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

华山资源网 Design By www.eoogi.com

评论“浅谈Python爬取网页的编码处理”

暂无评论...

www.eoogi.com 华山资源网

120,135影音资源

344,641技术资源

22,817软件资源

435,032站长资源

最新文章

柏菲·万山红《花开原野1》限量开盘母带ORMC

2024/11/16

柏菲·万山红《花开原野2》限量开盘母带ORMC

2024/11/16

潘安邦《思念精选集全纪录》5CD［WAV+CUE]

2024/11/16

杨千嬅《千嬅新唱金牌金曲》金牌娱乐 [WAV+

2024/11/16

杨钰莹《依然情深》首版[WAV+CUE][1G]

2024/11/16

一句话新闻

苹果官宣WWDC 2024！预计会有大批AI功能 - 2024/11/16

3月27日消息，苹果宣布2024年全球开发者大会（WWDC）将于6月10日至6月14日举行，巧合的是，这次大会与端午假期重合。

苹果官方表示：

在线参加 Apple 每年规模最大的开发者盛会。亲眼见证 Apple 最新平台、技术和工具的发布。了解如何创建和改进你的 App 和游戏。与 Apple 设计师和工程师互动交流，与全球开发者社区建立联系。以上活动均免费在线举行。

探索各种新的工具、框架和功能，助力你打造出理想的 App 和游戏。通过视频讲座学习新技能，与 Apple 专家进行一对一会面，以推进你的项目，完善你的构思。

Swift Student Challenge 旨在支持和鼓舞下一代开发者、创作者和企业家。太平洋时间 3 月 28 日，我们将公布今年的获奖者名单。获奖者将有资格参加在 Apple Park 举办的特别活动。我们还会选出 50 名杰出获胜者，他们将受邀前往库比提诺，获得为期三天的非凡体验，包括参加 Apple Park 的特别活动。

浅谈Python爬取网页的编码处理

Python 性能优化技巧总结

python字典多键值及重复键值的使用方法(详解)

评论“浅谈Python爬取网页的编码处理”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

浅谈Python爬取网页的编码处理

Python 性能优化技巧总结

python字典多键值及重复键值的使用方法(详解)

评论“浅谈Python爬取网页的编码处理”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存