很多用Python的人可能都写过网络爬虫,自动化获取网络数据确实是一件令人愉悦的事情,而Python很好的帮助我们达到这种愉悦。然而,爬虫经常要碰到各种登录、验证的阻挠,让人灰心丧气(网站:天天碰到各种各样的爬虫抓我们网站,也很让人灰心丧气~)。爬虫和反爬虫就是一个猫和老鼠的游戏,道高一尺魔高一丈,两者反复纠缠。
由于http协议的无状态性,登录验证都是通过传递cookies来实现的。通过浏览器登录一次,登录信息的cookie是就会被浏览器保存下来。下次再打开该网站时,浏览器自动带上保存的cookies,只有cookies还未过期,对于网站来说你就还是登录状态的。
browsercookie模块就是这样一个从浏览器提取保存的cookies的工具。它是一个很有用的爬虫工具,通过加载你浏览器的cookies到一个cookiejar对象里面,让你轻松下载需要登录的网页内容。
安装
pip install browsercookie
在Windows系统中,内置的sqlite模块在加载FireFox数据库时会抛出错误。需要更新sqlite的版本:
pip install pysqlite
使用方法
下面是从网页提取标题的例子:
> import re > get_title = lambda html: re.findall('<title>(.*"htmlcode">> import urllib2 > url = 'https://bitbucket.org/' > public_html = urllib2.urlopen(url).read() > get_title(public_html) 'Git and Mercurial code management for teams'接下来使用browsercookie从登录过Bitbucket的FireFox里面获取cookie再下载:
> import browsercookie > cj = browsercookie.firefox() > opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) > login_html = opener.open(url).read() > get_title(login_html) 'richardpenman / home — Bitbucket'上面是Python2的代码,再试试 Python3:
> import urllib.request > public_html = urllib.request.urlopen(url).read() > opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))你可以看到你的用户名出现在title里面了,说明browsercookie模块成功从FireFox加载了cookies。小编整理一套Python资料和PDF,有需要Python学习资料可以加学习群:631441315 ,反正闲着也是闲着呢,不如学点东西啦~~
下面是使用requests的例子,这次我们从Chrome里面加载cookies,当然你需要事先用Chrome登录Bitbucket:
> import requests > cj = browsercookie.chrome() > r = requests.get(url, cookies=cj) > get_title(r.content) 'richardpenman / home — Bitbucket'如果你不知道或不关心那个浏览器有你需要的cookies,你可以这样操作:
> cj = browsercookie.load() > r = requests.get(url, cookies=cj) > get_title(r.content) 'richardpenman / home — Bitbucket'支持
目前,该模块支持以下平台:
Chrome: Linux, OSX, Windows
Firefox: Linux, OSX, Windows
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
更新日志
- 群星《奔赴!万人现场 第4期》[320K/MP3][80.75MB]
- 林琳《独角戏HQ》WAV
- FIM-《Super-Sound-3》声霸3[WAV+CUE]
- 喇叭花-绝版天碟《我的碟“MyDisc”》[正版原抓WAV+CUE]
- 陈慧琳.1999-真感觉【正东】【WAV+CUE】
- 徐玮.1986-走自己的路(喜玛拉雅复刻版)【同心圆】【WAV+CUE】
- 林海峰.2003-我撑你【EMI百代】【WAV+CUE】
- 群星《奔赴!万人现场 第4期》[FLAC/分轨][454.89MB]
- 腾讯音乐人《未来立体声·Stereo Future VOL.12》[320K/MP3][62.37MB]
- 腾讯音乐人《未来立体声·Stereo Future VOL.12》[FLAC/分轨][176.46MB]
- 房东的猫2020-这是你想要的生活吗[青柴文化][WAV+CUE]
- 黄乙玲1990-春风恋情[日本东芝版][WAV+CUE]
- 黑鸭子2006-红色经典特别版[首版][WAV+CUE]
- 赵乃吉《你不是风平浪静的海》[320K/MP3][84.88MB]
- 赵乃吉《你不是风平浪静的海》[FLAC/分轨][176.46MB]