Python 爬虫学习笔记之单线程爬虫

脚本专栏 2024/11/19 佚名

3 1 2

介绍

本篇文章主要介绍如何爬取麦子学院的课程信息（本爬虫仍是单线程爬虫），在开始介绍之前，先来看看结果示意图

怎么样，是不是已经跃跃欲试了？首先让我们打开麦子学院的网址，然后找到麦子学院的全部课程信息，像下面这样

这个时候进行翻页，观看网址的变化，首先，第一页的网址是 http://www.maiziedu.com/course/list/, 第二页变成了 http://www.maiziedu.com/course/list/all-all/0-2/, 第三页变成了 http://www.maiziedu.com/course/list/all-all/0-3/ ，可以看到，每次翻一页，0后面的数字就会递增1，然后就有人会想到了，拿第一页呢？我们尝试着将 http://www.maiziedu.com/course/list/all-all/0-1/ 放进浏览器的地址栏，发现可以打开第一栏，那就好办了，我们只需要使用 re.sub() 就可以很轻松的获取到任何一页的内容。获取到网址链接之后，下面要做的就是获取网页的源代码，首先右击查看审查或者是检查元素，就可以看到以下界面

找到课程所在的位置以后，就可以很轻松的利用正则表达式将我们需要的内容提取出来，至于怎么提取，那就要靠你自己了，尝试着自己去找规律才能有更大的收获。如果你实在不知道怎么提取，那么继续往下，看我的源代码吧

实战源代码

 # coding=utf-8
 import re
 import requests
 import sys
 reload(sys)
 sys.setdefaultencoding("utf8")
 
 
 class spider():
   def __init__(self):
     print "开始爬取内容。。。"
 
    def changePage(self, url, total_page):
     nowpage = int(re.search('/0-(\d+)/', url, re.S).group(1))
     pagegroup = []
 
     for i in range(nowpage, total_page + 1):
       link = re.sub('/0-(\d+)/', '/0-%s/' % i, url, re.S)
       pagegroup.append(link)
 
     return pagegroup
 
def getsource(self, url):
  html = requests.get(url)
  return html.text
 
def getclasses(self, source):
  classes = re.search('<ul class="zy_course_list">(.*"(.*"', eachclass, re.S).group(1)
  info['people'] = re.search('<p class="color99">(.*"htmlcode">

import requests

html=requests.get("http://gupowang.baijia.baidu.com/article/283878")
html.encoding='utf-8'
print(html.text)




第一行引入requests库，第二行使用requests的get方法获取网页源代码，第三行设置编码格式，第四行文本输出。 

把获取到的网页源代码保存到文本文件中：


import requests
import os

html=requests.get("http://gupowang.baijia.baidu.com/article/283878")
html_file=open("news.txt","w")
html.encoding='utf-8'
print(html.text,file=html_file)

python,单线程,python,requests,单线程,python,爬虫

华山资源网 Design By www.eoogi.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

华山资源网 Design By www.eoogi.com

评论“Python 爬虫学习笔记之单线程爬虫”

暂无评论...

www.eoogi.com 华山资源网

120,135影音资源

344,641技术资源

22,817软件资源

435,032站长资源

最新文章

田震《真的田震精品集》头版限量编号24K金碟

2024/11/19

林俊杰《伟大的渺小》华纳[WAV+CUE][1G]

2024/11/19

谭艳《遗憾DSD》2023 [WAV+CUE][1G]

2024/11/19

Beyond2024《真的见证》头版限量编号MQA-UH

2024/11/19

瑞鸣唱片2024-《荒城之月》SACD传统民谣[IS

2024/11/19

一句话新闻

一口气升级7个大模型SaaS应用，百度智能云：突出一个“开箱即用” - 2024/11/19

这一波大模型产业落地浪潮里，不少企业其实处在 “干瞪眼“的状态。

一种情况是，很多大模型产品看得见却摸不着，在台上一个个遥遥领先——今天Sora技精四座，明天英伟达的机器人又赢得满堂彩，可是到了台下一问：啥时候能用上啊？答曰：遥遥无期。

另一种情况是，企业想用上大模型，却又难免瞻前顾后——既要考虑场景融合，又得兼顾安全性，还要考虑打通现有系统，再加上各种部署成本和繁琐的采购流程……最后只能拂袖：罢了，再等等吧。

稳了！魔兽国服回归的3条重磅消息！官宣时间再确认！

昨天有一位朋友在大神群里分享，自己亚服账号被封号之后居然弹出了国服的封号信息对话框。

这里面让他访问的是一个国服的战网网址，com.cn和后面的zh都非常明白地表明这就是国服战网。
而他在复制这个网址并且进行登录之后，确实是网易的网址，也就是我们熟悉的停服之后国服发布的暴雪游戏产品运营到期开放退款的说明。这是一件比较奇怪的事情，因为以前都没有出现这样的情况，现在突然提示跳转到国服战网的网址，是不是说明了简体中文客户端已经开始进行更新了呢？

更新日志

2024年11月19日

Python 爬虫学习笔记之单线程爬虫

Python遍历目录并批量更换文件名和目录名的方法

Python实现更改图片尺寸大小的方法(基于Pillow包)

评论“Python 爬虫学习笔记之单线程爬虫”

稳了！魔兽国服回归的3条重磅消息！官宣时间再确认！

更新日志

友情链接