进入淘宝网,分别按综合、销量排序抓取100页的所有商品的列表信息。
1、按综合
import re from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from pyquery import PyQuery as pq #获取整个网页的源代码 from config import * #可引用congif的所有变量 import pymongo import pymysql # client=pymongo.MongoClient(MONGO_URL) # db = client[MONGO_DB] # 按综合排序 100页 # 打开淘宝链接,输入‘美食',搜索 # 自动翻页:先得到总页数,再转到 _ 页,确定 # # browser = webdriver.PhantomJS(service_args=SERVICE_ARGS) # browser =webdriver.Chrome() browser = webdriver.Firefox() wait = WebDriverWait(browser,10) def search(): print('正在搜索...') try: browser.get('https://www.taobao.com') #用这个网页'https://s.taobao.com',无法输入keywords input=wait.until( EC.presence_of_element_located((By.CSS_SELECTOR,'#q')) #打开淘宝,右击查看元素,定位到搜索框,选择对应代码,复制-CSS选择器,其实就是‘#q'。 ) submit=wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,'#J_TSearchForm > div.search-button > button'))) input.send_keys(KEYWORD) #模拟操作,输入内容 submit.click() #点击提交 total = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > div.total'))) #页数 return total.text except TimeoutException : return search() # 翻页 def next_page(page_number): print('正在翻页',page_number) try: input = wait.until( # 输入框 EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > input')) # 打开淘宝,右击查看元素,定位到搜索框,选择对应代码,复制-CSS选择器,其实就是‘#q'。 ) # 搜索按钮 submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit'))) #未修改 input.clear() input.send_keys(page_number) # 模拟操作,输入页码 submit.click() #判断翻页是否成功,找到高亮页码数,由数子判断 wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR ,'#mainsrp-pager > div > div > div > ul > li.item.active > span'), str(page_number))) get_products() except TimeoutException : next_page(page_number) # 解析,获取每页的商品并输出 def get_products(): wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR,'#mainsrp-itemlist .items .item'))) #加载所有宝贝 html=browser.page_source doc = pq(html) items = doc('#mainsrp-itemlist .items .item').items() for item in items: product = { # 'picture':item.find('.pic .img').attr('src'),#用find去获取内部元素,选择器是 pic,img,用attr获取属性 'image': item.find('.pic .img').attr('data-src'), # 用find去获取内部元素,选择器是 pic,img,用attr获取属性 'shop_id': item.find('.shop').find('a').attr('data-userid'), # 店铺 id 'data_id': item.find('.shop').find('a').attr('data-nid'), # 商品 id 'link': item.find('.pic-box-inner').find('.pic').find('a').attr['href'], 'price':item.find('.price').text()[1:-3], # 用text获取内容 'deal':item.find('.deal-cnt').text()[:-3], 'title':item.find('.title').text().replace(' ',''), 'shop':item.find('.shop').text(), 'location':item.find('.location').text() } # print(product) # print(product['location']) save_to_mysql(product) ''''' def main(): try: # search() total=search() # 此时 total = ‘共 100 页,' total=int(re.compile('(\d+)').search(total).group(1)) # 用正则表达式提取数字100 # print(total) for i in range(2,total+1): next_page(i) except Exception: print('出错啦') finally: # 不管有没有异常,都要执行此操作 browser.close() # 关浏览器 ''' def main(): total=search() total=int(re.compile('(\d+)').search(total).group(1)) for i in range(2,total+1): next_page(i)#显示当前爬取网页的页数 print ('搞定%d'%i) def save_to_mysql(product): # print(product['location']) #,use_unicode = False try: conn = pymysql.connect(host='localhost', user='root', passwd=' ', db='test1', port=3306,charset='utf8' ) cur = conn.cursor() # 创建一个游标对象 sql = """INSERT INTO women_clothes_zonghe VALUES (%s,%s,%s,%s,%s,%s,%s,%s,%s)""" cur.execute(sql, (product['shop_id'],product['shop'], product['link'],product['data_id'], product['title'], product['price'], product['location'],product['deal'],product['image'])) # cur.execute(sql) print('- - - - - 数据保存成功 - - - - -') cur.close() conn.commit() conn.close() # 关闭数据 except pymysql.Error as e: print(e) if __name__=='__main__': # 连接数据库 conn = pymysql.connect(host='localhost', user='root', passwd=' ', db='test1', port=3306,charset="utf8") cur = conn.cursor() # 创建一个游标对象 cur.execute("DROP TABLE IF EXISTS women_clothes_zonghe") # 如果表存在则删除 # 创建表sql语句 sqlc = """CREATE TABLE women_clothes_zonghe( shop_id VARCHAR(500), shop VARCHAR(500), link VARCHAR(1000), data_id varchar(100), title VARCHAR(1000), price VARCHAR(500), location VARCHAR(500), deal VARCHAR(500), image VARCHAR(1000) )""" cur.execute(sqlc) # 执行创建数据表操作 main()
2、按销量
import re from bs4 import BeautifulSoup from pyquery import PyQuery as pq #获取整个网页的源代码 from config import * #可引用congif的所有变量 import pymongo import pymysql import urllib import requests import json import bs4 from selenium import webdriver from pyquery import PyQuery as pq #获取整个网页的源代码 # 完整爬取所有页面的商品信息 共100页 按销量排序 browser = webdriver.Firefox() wait = WebDriverWait(browser,10) def get_url(keyword): url_str = urllib.parse.quote(keyword) i = 0 for j in range(100): yield{ 'url':('https://s.taobao.com/search"insert into women_clothes_sales2 values (%s,%s,%s,%s,%s,%s,%s,%s,%s)" cur.execute(sql,(product['shop_id'],product['shop'],product['link'],product['data_id'],product['title'],product['price'],product['location'],product['deal'],product['image'])) print('- - - 数据保存成功 - - - ') cur.close() conn.commit() conn.close() except pymysql.Error as e: print(e) def main(): keyword = '女装' links = get_url(keyword) # 字典 # 获取每页的 url for link in links: # print(link) url = link['url'] #解析页面 # soup = get_html(url) # print(soup) # get_detail(soup,url) get_products(url) if __name__=='__main__': conn = pymysql.connect(host='localhost',user = 'root',passwd=' ',db='test1',port = 3306,charset='utf8') cur = conn.cursor() cur.execute('Drop table if exists women_clothes_sales2') sqlc = "create table women_clothes_sales2(shop_id varchar(100),shop varchar(500),link varchar(1000),data_id varchar(100),title varchar(500),price varchar(200),location varchar(100),deal varchar(100),image varchar(1000))" cur.execute(sqlc) cur.close() conn.commit() conn.close() main()
更多内容请参考专题《python爬取功能汇总》进行学习。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
华山资源网 Design By www.eoogi.com
广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
华山资源网 Design By www.eoogi.com
暂无评论...
《魔兽世界》大逃杀!60人新游玩模式《强袭风暴》3月21日上线
暴雪近日发布了《魔兽世界》10.2.6 更新内容,新游玩模式《强袭风暴》即将于3月21 日在亚服上线,届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。
艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕,并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时,他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中,玩家将会进入一个全新的海盗主题大逃杀式限时活动,其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场,作为一个独立于主游戏之外的活动,玩家可以用大逃杀的风格来体验《魔兽世界》,不分职业、不分装备(除了你在赛局中捡到的),光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式,玩家在加入海盗主题的预赛大厅区域前,可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹,《巨龙崛起》和《魔兽世界:巫妖王之怒 经典版》的玩家都可以获得奖励。
更新日志
2024年11月10日
2024年11月10日
- 雨林唱片《赏》新曲+精选集SACD版[ISO][2.3G]
- 罗大佑与OK男女合唱团.1995-再会吧!素兰【音乐工厂】【WAV+CUE】
- 草蜢.1993-宝贝对不起(国)【宝丽金】【WAV+CUE】
- 杨培安.2009-抒·情(EP)【擎天娱乐】【WAV+CUE】
- 周慧敏《EndlessDream》[WAV+CUE]
- 彭芳《纯色角3》2007[WAV+CUE]
- 江志丰2008-今生为你[豪记][WAV+CUE]
- 罗大佑1994《恋曲2000》音乐工厂[WAV+CUE][1G]
- 群星《一首歌一个故事》赵英俊某些作品重唱企划[FLAC分轨][1G]
- 群星《网易云英文歌曲播放量TOP100》[MP3][1G]
- 方大同.2024-梦想家TheDreamer【赋音乐】【FLAC分轨】
- 李慧珍.2007-爱死了【华谊兄弟】【WAV+CUE】
- 王大文.2019-国际太空站【环球】【FLAC分轨】
- 群星《2022超好听的十倍音质网络歌曲(163)》U盘音乐[WAV分轨][1.1G]
- 童丽《啼笑姻缘》头版限量编号24K金碟[低速原抓WAV+CUE][1.1G]