Python2.X/Python3.X中urllib库区别讲解

脚本专栏 2024/11/17 佚名

3 1 2

本文介绍urllib库在不同版本的Python中的变动，并以Python3.X讲解urllib库的相关用法。

urllib库对照速查表

Python2.X Python3.X urllib urllib.request, urllib.error, urllib.parse urllib2 urllib.request, urllib.error urllib2.urlopen urllib.request.urlopen urllib.urlencode urllib.parse.urlencode urllib.quote urllib.request.quote urllib2.Request urllib.request.Request urlparse urllib.parse urllib.urlretrieve urllib.request.urlretrieve urllib2.URLError urllib.error.URLError cookielib.CookieJar http.CookieJar

urllib库是用于操作URL，爬取页面的python第三方库，同样的库还有requests、httplib2。

在Python2.X中，分urllib和urllib2，但在Python3.X中，都统一合并到urllib中。通过上表可以看到其中常见的变动，依据该变动可快速写出相应版本的python程序。

相对来说，Python3.X对中文的支持比Python2.X友好，所以该博客接下来通过Python3.X来介绍urllib库的一些常见用法。

发送请求

import urllib.request
r = urllib.request.urlopen(http://www.python.org/)

首先导入urllib.request模块，使用urlopen()对参数中的URL发送请求，返回一个http.client.HTTPResponse对象。

在urlopen()中，使用timeout字段，可设定相应的秒数时间之后停止等待响应。除此之外，还可使用r.info()、r.getcode()、r.geturl()获取相应的当前环境信息、状态码、当前网页URL。

读取响应内容

import urllib.request
url = "http://www.python.org/"
with urllib.request.urlopen(url) as r:
r.read()

使用r.read()读取响应内容到内存，该内容为网页的源代码（可用相应的浏览器“查看网页源代码”功能看到），并可对返回的字符串进行相应解码decode()。

传递URL参数

import urllib.request
import urllib.parse
params = urllib.parse.urlencode({'q': 'urllib', 'check_keywords': 'yes', 'area': 'default'})
url = "https://docs.python.org/3/search.html".format(params)
r = urllib.request.urlopen(url)

以字符串字典的形式，通过urlencode()编码，为URL的查询字符串传递数据，

编码后的params为字符串，字典每项键值对以'&'连接：'q=urllib&check_keywords=yes&area=default'

构建后的URL：https://docs.python.org/3/search.html"htmlcode">

import urllib.request
searchword = urllib.request.quote(input("请输入要查询的关键字："))
url = "https://cn.bing.com/images/async".format(searchword)
r = urllib.request.urlopen(url)

该URL是利用bing图片接口，查询关键字q的图片。如果直接将中文传入URL中请求，会导致编码错误。我们需要使用quote()，对该中文关键字进行URL编码，相应的可以使用unquote()进行解码。

定制请求头

import urllib.request
url = 'https://docs.python.org/3/library/urllib.request.html'
headers = {
  'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36',
  'Referer': 'https://docs.python.org/3/library/urllib.html'
}
req = urllib.request.Request(url, headers=headers)
r = urllib.request.urlopen(req)

有时爬取一些网页时，会出现403错误（Forbidden），即禁止访问。这是因为网站服务器对访问者的Headers属性进行身份验证，例如：通过urllib库发送的请求，默认以”Python-urllib/X.Y”作为User-Agent，其中X为Python的主版本号，Y为副版本号。所以，我们需要通过urllib.request.Request()构建Request对象，传入字典形式的Headers属性，模拟浏览器。

相应的Headers信息，可通过浏览器的开发者调试工具，”检查“功能的”Network“标签查看相应的网页得到，或使用抓包分析软件Fiddler、Wireshark。

除上述方法外，还可以使用urllib.request.build_opener()或req.add_header()定制请求头，详见官方样例。

在Python2.X中，urllib模块和urllib2模块通常一起使用，因为urllib.urlencode()可以对URL参数进行编码，而urllib2.Request()可以构建Request对象，定制请求头，然后统一使用urllib2.urlopen()发送请求。

传递POST请求

import urllib.request
import urllib.parse
url = 'https://passport.cnblogs.com/user/signin"htmlcode">

import urllib.request
url = "https://www.python.org/static/img/python-logo.png"
urllib.request.urlretrieve(url, "python-logo.png")


爬取图片、视频等远程数据时，可使用urlretrieve()下载到本地。
第一个参数为要下载的url，第二个参数为下载后的存放路径。
该样例下载python官网logo到当前目录下，返回元组(filename, headers)。
设置代理IP


import urllib.request
url = "https://www.cnblogs.com/"
proxy_ip = "180.106.16.132:8118"
proxy = urllib.request.ProxyHandler({'http': proxy_ip})
opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler)
urllib.request.install_opener(opener)
r = urllib.request.urlopen(url)


有时频繁的爬取一个网页，会被网站服务器屏蔽IP。这时，可通过上述方法设置代理IP。
首先，通过网上代理IP的网站找一个可以用的IP，构建ProxyHandler()对象，将'http'和代理IP以字典形式作为参数传入，设置代理服务器信息。再构建opener对象，将proxy和HTTPHandler类传入。通过installl_opener()将opener设置成全局，当用urlopen()发送请求时，会使用之前设置的信息来发送相应的请求。
异常处理


import urllib.request
import urllib.error
url = "http://www.balabalabala.org"
try:
  r = urllib.request.urlopen(url)
except urllib.error.URLError as e:
  if hasattr(e, 'code'):
    print(e.code)
  if hasattr(e, 'reason'):
    print(e.reason)


可以使用URLError类，处理一些URL相关异常。导入urllib.error，捕获URLError异常后，因为只有发生HTTPError异常（URLError子类）时，才会有异常状态码e.code，所以需要判断异常是否有属性code。
Cookie的使用


import urllib.request
import http.cookiejar
url = "http://www.balabalabala.org/"
cjar = http.cookiejar.CookieJar()
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cjar))
urllib.request.install_opener(opener)
r = urllib.request.urlopen(url)


通过无状态协议HTTP访问网页时，Cookie维持会话间的状态。例如：有些网站需要登录操作，第一次可通过提交POST表单来登录，当爬取该网站下的其它站点时，可以使用Cookie来保持登录状态，而不用每次都通过提交表单来登录。
首先，构建CookieJar()对象cjar，再使用HTTPCookieProcessor()处理器，处理cjar，并通过build_opener()构建opener对象，设置成全局，通过urlopen()发送请求。

Python,urllib库,区别

华山资源网 Design By www.eoogi.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

华山资源网 Design By www.eoogi.com

评论“Python2.X/Python3.X中urllib库区别讲解”

暂无评论...

《魔兽世界》大逃杀！60人新游玩模式《强袭风暴》3月21日上线

暴雪近日发布了《魔兽世界》10.2.6 更新内容，新游玩模式《强袭风暴》即将于3月21 日在亚服上线，届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。

艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕，并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时，他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中，玩家将会进入一个全新的海盗主题大逃杀式限时活动，其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场，作为一个独立于主游戏之外的活动，玩家可以用大逃杀的风格来体验《魔兽世界》，不分职业、不分装备（除了你在赛局中捡到的），光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式，玩家在加入海盗主题的预赛大厅区域前，可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹，《巨龙崛起》和《魔兽世界：巫妖王之怒经典版》的玩家都可以获得奖励。

更新日志

2024年11月17日

Python2.X/Python3.X中urllib库区别讲解

Python字符串拼接六种方法介绍

Python Socket使用实例

评论“Python2.X/Python3.X中urllib库区别讲解”

《魔兽世界》大逃杀！60人新游玩模式《强袭风暴》3月21日上线

更新日志

友情链接