Scrapy中如何向Spider传入参数的方法实现

脚本专栏 2024/11/16 佚名

3 1 2

在使用Scrapy爬取数据时，有时会碰到需要根据传递给Spider的参数来决定爬取哪些Url或者爬取哪些页的情况。

例如，百度贴吧的放置奇兵吧的地址如下，其中 kw参数用来指定贴吧名称、pn参数用来对帖子进行翻页。

https://tieba.baidu.com/f"color: #ff0000">方式一


通过 scrapy crawl 命令的 -a 参数向 spider 传递参数。


# -*- coding: utf-8 -*-
import scrapy

class TiebaSpider(scrapy.Spider):
  name = 'tieba' # 贴吧爬虫
  allowed_domains = ['tieba.baidu.com'] # 允许爬取的范围
  start_urls = [] # 爬虫起始地址

  # 命令格式： scrapy crawl tieba -a tiebaName=放置奇兵 -a pn=250
  def __init__(self, tiebaName=None, pn=None, *args, **kwargs):
    print('< 贴吧名称 >： ' + tiebaName)
    super(eval(self.__class__.__name__), self).__init__(*args, **kwargs)
    self.start_urls = ['https://tieba.baidu.com/f"color: #ff0000">方式二
仿照 scrapy 的 crawl 命令的源代码，重新自定义一个专用命令。

settings.py
首先，需要在settings.py文件中增加如下配置来指定自定义 scrapy 命令的存放目录。


# 指定 Scrapy 命令存放目录
COMMANDS_MODULE = 'baidu_tieba.commands'


run.py
在指定的命令存放目录中创建命令文件，在这里我们创建的命令文件为 run.py ，将来执行的命令格式为：

scrapy run [ -option option_value] 。


import scrapy.commands.crawl as crawl
from scrapy.exceptions import UsageError
from scrapy.commands import ScrapyCommand


class Command(crawl.Command):

  def add_options(self, parser):
    # 为命令添加选项
    ScrapyCommand.add_options(self, parser)
    parser.add_option("-k", "--keyword", type="str", dest="keyword", default="",
             help="set the tieba's name you want to crawl")
    parser.add_option("-p", "--pageNum", type="int", action="store", dest="pageNum", default=0,
             help="set the page number you want to crawl")

  def process_options(self, args, opts):
    # 处理从命令行中传入的选项参数
    ScrapyCommand.process_options(self, args, opts)
    if opts.keyword:
      tiebaName = opts.keyword.strip()
      if tiebaName != '':
        self.settings.set('TIEBA_NAME', tiebaName, priority='cmdline')
    else:
      raise UsageError("U must specify the tieba's name to crawl,use -kw TIEBA_NAME!")
    self.settings.set('PAGE_NUM', opts.pageNum, priority='cmdline')

  def run(self, args, opts):
    # 启动爬虫
    self.crawler_process.crawl('tieba')
    self.crawler_process.start()



pipelines.py
在BaiduTiebaPipeline的open_spider()方法中利用 run 命令传入的参数对TiebaSpider进行初始化，在这里示例设置了一下start_urls。


# -*- coding: utf-8 -*-
import json

class BaiduTiebaPipeline(object):

  @classmethod
  def from_settings(cls, settings):
    return cls(settings)

  def __init__(self, settings):
    self.settings = settings

  def open_spider(self, spider):
    # 开启爬虫
    spider.start_urls = [
      'https://tieba.baidu.com/f"htmlcode">

ITEM_PIPELINES = {
  'baidu_tieba.pipelines.BaiduTiebaPipeline': 50,
}


启动示例
大功告成，参照如下命令格式启动贴吧爬虫。 


scrapy run -k 放置奇兵 -p 250



参考文章：
https://blog.csdn.net/c0411034/article/details/81750028 
https://blog.csdn.net/qq_24760381/article/details/80361400 
https://blog.csdn.net/qq_38282706/article/details/80991196 

                                
                                
                                    Scrapy,Spider传入参数,Scrapy,Spider,参数 
                                华山资源网 Design By www.eoogi.com


                        
                            
                                广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）

                                免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！
                            
                        
                        
                            
                                
                                    上一篇
                                    python在CMD界面读取excel所有数据的示例
                                
                            
                            
                                
                                    下一篇
                                    python调用摄像头的示例代码
                                
                            
                        
                        
                        华山资源网 Design By www.eoogi.com
                        
                            
                                
                                
                                    评论“Scrapy中如何向Spider传入参数的方法实现”
                                
                            
                            
                                
                                    
                                        
                                            
                                                
                                                    
                                                
                                                
                                                    
                                                
                                                
                                                    
                                                    
                                                    
                                                
                                                
                                                     再想想
                                                    
                                                    
                                                    
                                                    
                                                    
                                                
                                            
                                            
                                        
                                    
                                    
                                    
                                        暂无评论...


                    
                        
                            
                                
                                    
                                        
                                    
                                    
                                        
                                            
                                        
                                    
                                
                                
                                    www.eoogi.com
                                            
                                                华山资源网 
                                    
                                    
                                        
                                            
                                        
                                        
                                            
                                        
                                        
                                            
                                        
                                        
                                            
                                        
                                    
                                    
                                    
                                        
                                            120,135影音资源
                                        
                                        
                                            344,641技术资源
                                        
                                        
                                            22,817软件资源
                                        
                                        
                                            435,032站长资源
                                        
                                    
                                
                            
                            
                                最新文章
                                
                                    
                                         
                                       
                                            
                                                
                                            
                                            
                                                
                                                    梁朝伟.1986-朦胧夜雨裡（华星40经典）【华星
                                                
                                                
                                                    
                                                        2024/11/16
                                                        
                                                         8
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    方芳.1996-得意洋洋【中唱】【WAV+CUE】
                                                
                                                
                                                    
                                                        2024/11/16
                                                        
                                                         8
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    辛欣.2001-放120个心【上海音像】【WAV+CUE
                                                
                                                
                                                    
                                                        2024/11/16
                                                        
                                                         57
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    柏菲·万山红《花开原野1》限量开盘母带ORMC
                                                
                                                
                                                    
                                                        2024/11/16
                                                        
                                                         77
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    柏菲·万山红《花开原野2》限量开盘母带ORMC
                                                
                                                
                                                    
                                                        2024/11/16
                                                        
                                                         15
                                                    
                                                
                                            
                                        


                                    
                                
                            
                            一句话新闻
苹果官宣WWDC 2024！预计会有大批AI功能 - 2024/11/16

3月27日消息，苹果宣布2024年全球开发者大会（WWDC）将于6月10日至6月14日举行，巧合的是，这次大会与端午假期重合。

苹果官方表示：

在线参加 Apple 每年规模最大的开发者盛会。亲眼见证 Apple 最新平台、技术和工具的发布。了解如何创建和改进你的 App 和游戏。与 Apple 设计师和工程师互动交流，与全球开发者社区建立联系。以上活动均免费在线举行。

探索各种新的工具、框架和功能，助力你打造出理想的 App 和游戏。通过视频讲座学习新技能，与 Apple 专家进行一对一会面，以推进你的项目，完善你的构思。

Swift Student Challenge 旨在支持和鼓舞下一代开发者、创作者和企业家。太平洋时间 3 月 28 日，我们将公布今年的获奖者名单。获奖者将有资格参加在 Apple Park 举办的特别活动。我们还会选出 50 名杰出获胜者，他们将受邀前往库比提诺，获得为期三天的非凡体验，包括参加 Apple Park 的特别活动。


            RTX 5090要首发 性能要翻倍！三星展示GDDR7显存
三星在GTC上展示了专为下一代游戏GPU设计的GDDR7内存。首次推出的GDDR7内存模块密度为16GB，每个模块容量为2GB。其速度预设为32 Gbps（PAM3），但也可以降至28 Gbps，以提高产量和初始阶段的整体性能和成本效益。
据三星表示，GDDR7内存的能效将提高20%，同时工作电压仅为1.1V，低于标准的1.2V。通过采用更新的封装材料和优化的电路设计，使得在高速运行时的发热量降低，GDDR7的热阻比GDDR6降低了70%。
            
                
                    
                        
                            更新日志
                        
                        
                            
                                
                                    2024年11月16日
                                
                                                    
                        
 
                            梁朝伟.1986-朦胧夜雨裡（华星40经典）【华星】【WAV+CUE】
 
                            方芳.1996-得意洋洋【中唱】【WAV+CUE】
 
                            辛欣.2001-放120个心【上海音像】【WAV+CUE】
 
                            柏菲·万山红《花开原野1》限量开盘母带ORMCD[低速原抓WAV+CUE]
 
                            柏菲·万山红《花开原野2》限量开盘母带ORMCD[低速原抓WAV+CUE]

                        
                    
                    
                        2024年11月16日
                    
                    
                        
 
                            潘安邦《思念精选集全纪录》5CD［WAV+CUE]
 
                            杨千嬅《千嬅新唱金牌金曲》金牌娱乐 [WAV+CUE][985M]
 
                            杨钰莹《依然情深》首版[WAV+CUE][1G]
 
                            第五街的士高《印度激情版》3CD [WAV+CUE][2.4G]
 
                            三国志8重制版哪个武将智力高 三国志8重制版智力武将排行一览
 
                            三国志8重制版哪个武将好 三国志8重制版武将排行一览
 
                            三国志8重制版武将图像怎么保存 三国志8重制版武将图像设置方法
 
                            何方.1990-我不是那种人【林杰唱片】【WAV+CUE】
 
                            张惠妹.1999-妹力新世纪2CD【丰华】【WAV+CUE】
 
                            邓丽欣.2006-FANTASY【金牌大风】【WAV+CUE】
 
                            饭制《黑神话》蜘蛛四妹手办
 
                            《燕云十六声》回应跑路：年内公测版本完成95%
 
                            网友发现国内版《双城之战》第二季有删减：亲亲环节没了！
 
                            邓丽君2024-《漫步人生路》头版限量编号MQA-UHQCD[WAV+CUE]
 
                            SergeProkofievplaysProkofiev[Dutton][FLAC+CUE]

                        
                    
                            
                        
                    
                
            
            
                
                    友情链接 
                
                    
                        杰晶网络
                        DDR爱好者之家
                        桃源资源网
                        杰网资源
                        富贵资源网
                        南强小屋
                        铁雪资源网
                        幽灵资源网
                        万梅资源网
                        狼山资源网
                        白云岛资源网
                        昆仑资源网
                        相思资源网
                        明霞山资源网
                        内蒙古资源网
                        黑松山资源网
                        茶园资源网
                        饿虎岗资源网
                        大旗谷资源网
                        常春岛资源网
                        岱庙资源网
                        兴国资源网
                        快活林资源网
                        蝙蝠岛资源网
                        帝王谷资源网
                        白云城资源网
                        伏龙阁资源网
                        清风细雨楼
                        天枫庄资源网
                        圆月山庄资源网
                        无争山庄资源网
                        神水资源网
                        移花宫资源网
                        神剑山庄资源网
                        无为清净楼资源网
                        金钱帮资源网
                        丐帮资源网
                        华山资源网
                        极乐门资源网
                        小李飞刀资源网
                        凤求凰客栈
                        风云阁资源网
                        金狮镖局
                        鸳鸯亭资源网
                        千金楼资源网
                        更多链接
                    
                
            
            华山资源网 Design By www.eoogi.com
            
                
                    
                        
                    
                    
                        
                    
                
                
                    
                        Copyright © 2006~2023
                         华山资源网 Design by www.eoogi.com  手机版

Scrapy中如何向Spider传入参数的方法实现

python在CMD界面读取excel所有数据的示例

python调用摄像头的示例代码

评论“Scrapy中如何向Spider传入参数的方法实现”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存