本文主要分享关于python登录并爬取淘宝信息的相关代码,还是挺不错的,大家可以了解下。
#!/usr/bin/env python # -*- coding:utf-8 -*- from selenium import webdriver import time import datetime import traceback import logging import os from selenium.webdriver.common.action_chains import ActionChains import codecs #登录 def login(driver,site): driver.get(site) time.sleep(5) try: #点击请登录 driver.find_element_by_class_name("h").click() time.sleep(5) #输入账号和密码 driver.find_element_by_id("TPL_username_1").send_keys(u"yourusername") time.sleep(5) #print driver.find_element_by_id("TPL_username_1") driver.find_element_by_id("TPL_password_1").send_keys(u"yourpsd") time.sleep(5) #点击登录 driver.find_element_by_id("J_SubmitStatic").click() time.sleep(30) except: print u"failure" def crawlmarket(driver,filename,site): #driver = webdriver.Firefox() driver.get(site) driver.maximize_window() time.sleep(10) driver.refresh() time.sleep(10) test = driver.find_elements_by_xpath("//a[@class='J_ItemLink']") #是否获取到消息,若无则登录 if len(test)==0: login(driver,site) time.sleep(30) resultstrall="" resultstr="" strinfo ="" for i in range(0,len(test),1): if test[i].text != "" : resultstr = test[i].text.strip()+'\n' print resultstr resultstrall += resultstr #是否成功抓取 if resultstrall !="": f = codecs.open(filename,'w','utf-8') f.write(resultstrall) f.close() #若没有成功抓取将网站写入error else: strinfo = filename+","+site print strinfo ferror = codecs.open("error.txt",'a','utf-8') ferror.write(strinfo) ferror.close() driver.quit() def crawltaobaosousuo(driver,filename,site): #driver = webdriver.Firefox() driver.get(site) driver.maximize_window() time.sleep(10) driver.get(site) time.sleep(30) driver.refresh() test = driver.find_elements_by_xpath("//a[@class='J_ClickStat']") resultstrall="" resultstr="" strinfo ="" for i in range(0,len(test),1): if test[i].text != "" : resultstr = test[i].text.strip()+'\n' print resultstr resultstrall += resultstr if resultstrall !="": f = codecs.open(filename,'w','utf-8') f.write(resultstrall) f.close() else: strinfo = filename+","+site print strinfo ferror = codecs.open("error.txt",'a','utf-8') ferror.write(strinfo) ferror.close() driver.quit() def jiexi(driver): f = open("1.txt","r") for line in f: time.sleep(60) info = line.split(",") href = info[1] filename = info[0].decode("utf-8") print filename if "markets" in href: crawlmarket(driver,filename,href) else: crawltaobaosousuo(driver,filename,href) if __name__ =='__main__': driver = webdriver.Firefox() jiexi(driver)
小结
有改进策略一起探讨,可以抓取淘宝部分网页内容,根据自己的需求改改吧,会被风控。个人觉得不登录的效果更好。
以上就是本文关于python 登录并爬取淘宝信息代码示例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题。如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!
华山资源网 Design By www.eoogi.com
广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
华山资源网 Design By www.eoogi.com
暂无评论...
更新日志
2024年09月20日
2024年09月20日
- [ABC]安娜-胆麦发烧女声[6N纯银镀膜][2016[低速原抓WAV+CUE]
- 任天堂今晚举行直面会!第三方及独立游戏展示
- 《哆啦A梦的铜锣烧店物语》发售!开罗公式+哆啦A梦
- 任天堂公布《塞尔达传说》系列时间线:野炊与王泪独立在外
- 五条人.2012-一些风景2CD【刀马旦】【WAV+CUE】
- 陈奕迅.2013-Easons.Life演唱会2CD(2024环球红馆40复刻系列)【环球】【WAV+CUE】
- 许美静.1995-遗憾(新马版)【上华】【WAV+CUE】
- 《叶倩文 歌声情缘》[WAV+CUE][410MB]
- 《张国荣 首首动听经典不容错过 追忆的风 2CD》[WAV+CUE][870MB]
- 《腾格尔 容中尔甲 亚东 高原三星 男人篇 3CD》[WAV/分轨][1GB]
- 命运圣契公测实测可用兑换码大全 命运圣契最新兑换码分享
- 黑神话悟空上品疾蝠精魄获取方法一览|上品疾蝠精魄收集攻略
- 《七龙珠电光炸裂!ZERO》GT角色预告片曝光,15位新角色登场
- [ABC]安娜-胆麦发烧女声[6N纯银镀膜][2016[低速原抓WAV+CUE]
- NewViennaOctetViennaWindSoloists-TheDeccaRecordings(2024)18CD[24-48][FLAC]-7