Python有许多强大的库用于爬虫,如beautifulsoup、requests等,本文将以网站https://www.xiurenji.cc/XiuRen/为例(慎点!!),讲解网络爬取图片的一般步骤。
为什么选择这个网站?其实与网站的内容无关。主要有两项技术层面的原因:①该网站的页面构造较有规律,适合新手对爬虫的技巧加强认识。②该网站没有反爬虫机制,可以放心使用爬虫。
第三方库需求
- beautifulsoup
- requests
步骤
打开网站,点击不同的页面:
发现其首页是https://www.xiurenji.cc/XiuRen/,而第二页是https://www.xiurenji.cc/XiuRen/index2.html,第三页第四页以此类推。为了爬虫代码的普适性,我们不妨从第二页以后进行构造url。
选中封面图片,点击检查:
可以发现,图片的信息,都在'div',class_='dan'
里,而链接又在a
标签下的href
里。据此我们可以写一段代码提取出每一个封面图片的url:
def getFirstPage(page): url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#获得网站每一个首页的网址 res=requests.get(url)#发送请求 res.encoding="gbk"#设置编码方式为gbk html=res.text soup=BeautifulSoup(html,features='lxml') lists=soup.find_all('div',class_='dan')#找到储存每一个封面图片的标签值 urls=[] for item in lists: url1=item.find('a').get('href')#寻找每一个封面对应的网址 urls.append('https://www.xiurenji.cc'+url1)#在列表的尾部添加一个元素,达到扩充列表的目的,注意要把网址扩充完整 return urls#返回该主页每一个封面对应的网址
点击封面图片,打开不同的页面,可以发现,首页的网址是https://www.xiurenji.cc/XiuRen/xxxx.html,而第二页的网址是https://www.xiurenji.cc/XiuRen/xxxx_1.html,第三第四页同理。同样为了普适性,我们从第二页开始爬取。
右键,点击“检查”:
可以发现所有的图片信息都储存在'div',class_='img'
中,链接、标题分别在img
标签中的src
和alt
中,我们同样也可以将它们提取出来。
def getFirstPage(page): url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#获得网站每一个首页的网址 res=requests.get(url)#发送请求 res.encoding="gbk"#设置编码方式为gbk html=res.text soup=BeautifulSoup(html,features='lxml') lists=soup.find_all('div',class_='dan')#找到储存每一个封面图片的标签值 urls=[] for item in lists: url1=item.find('a').get('href')#寻找每一个封面对应的网址 urls.append('https://www.xiurenji.cc'+url1)#在列表的尾部添加一个元素,达到扩充列表的目的,注意要把网址扩充完整 return urls#返回该主页每一个封面对应的网址
完整代码
import requests from bs4 import BeautifulSoup def getFirstPage(page): url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#获得网站每一个首页的网址 res=requests.get(url)#发送请求 res.encoding="gbk"#设置编码方式为gbk html=res.text soup=BeautifulSoup(html,features='lxml') lists=soup.find_all('div',class_='dan')#找到储存每一个封面图片的标签值 urls=[] for item in lists: url1=item.find('a').get('href')#寻找每一个封面对应的网址 urls.append('https://www.xiurenji.cc'+url1)#在列表的尾部添加一个元素,达到扩充列表的目的,注意要把网址扩充完整 return urls#返回该主页每一个封面对应的网址 def download(urls): for url1 in urls: print("prepare to download pictures in "+url1) getEveryPage(url1)#下载页面内的图片 print("all pictures in "+url1+"are downloaded") def getEveryPage(url1): total=0#total的作用:对属于每一个封面内的图片一次编号 for n in range (1,11):#每一个封面对应下载10张图,可自行调整 temp=url1.replace('.html','') url2=temp+'_'+str(n)+'.html'#获得每一内部页面的网址 res=requests.get(url2) res.encoding="gbk" html=res.text soup=BeautifulSoup(html,features='lxml') lists1=soup.find_all('div',class_='img')#储存图片的路径 for item in lists1: url=item.find('img').get('src') title=item.find('img').get('alt')#获取图片及其标题 picurl='https://www.xiurenji.cc'+url#获取完整的图片标题 picture=requests.get(picurl).content#下载图片 address='D:\pythonimages'+'\\'#自定义保存图片的路径 with open(address+title+str(total)+'.jpg','wb') as file:#保存图片 print("downloading"+title+str(total)) total=total+1 file.write(picture) if __name__ == "__main__": page=int(input('input the page you want:')) urls=getFirstPage(page) download(urls)
本文仅供学习参考,切勿用作其他用途!
华山资源网 Design By www.eoogi.com
广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
华山资源网 Design By www.eoogi.com
暂无评论...
更新日志
2024年11月15日
2024年11月15日
- 炉石传说月初最强卡组有哪些 2024月初最强上分卡组推荐
- 狼人杀亮相原生鸿蒙之夜 假面科技强势登陆华为生态
- 12小时光线挑战!AI画质专家才是大平层首选
- 2024游戏IP报告:1~9月规模1960亿 68%用户愿为之付费
- 群星.2024-今夜一起为爱鼓掌电视剧原声带【相信音乐】【FLAC分轨】
- BIGFOUR.2013-大家利事【寰亚】【WAV+CUE】
- 李美凤.1992-情深透全情歌集【EMI百代】【WAV+CUE】
- 田震2024-《时光音乐会》[金峰][WAV+CUE]
- 群星《监听天碟3》[LECD]限量版[WAV+CUE]
- 心妤《声如夏花HQ》头版限量编号[WAV+CUE]
- 群星《摇滚五杰》[低速原抓WAV+CUE][1.1G]
- 群星 《2024好听新歌30》十倍音质 U盘音乐 [WAV+分轨]
- 群星《试音草原·女声篇》经典蒙古民歌[WAV+CUE][1G]
- 陈慧娴《永远是你的朋友》头版限量编号MQA-UHQCD2024[低速原抓WAV+CUE]
- 曼丽·女人三十《如果·爱》限量1:1母盘直刻[低速原抓WAV+CUE]