scrapy项目做多个spider数据采集

懂.py的小陈

2024-04-25 帮助1人

一、scrapy多个spider爬取数据

我们知道爬虫刚开始的时候，通过start_requests(self)方法把所有的url一次性传给调度器，后面的事情就是由调度器来完成的

start_requests(self)：方法的代码如下 在第7行到10行

学新通

然后我提醒一下，这个是我一个spider，不是多个spidr

我把截图拿出来是因为要让你们知道，我在讲的是哪一个spider

为什么要多个spider呢？

答：一个spider就只能进行一个类型的链接的抓取，比如翻页操作，如果是其他的链接就不能抓取了，可能有人能想到更好的办法，但是我是想不出来，我反正就是实践出真知

二、进入正题

现在创建爬虫项目

scrapy startproject demo_crawl

cd demo

创建多个spider

#第一个spider
scrapy genspider waimai1 测试ip
#第二个spider
scrapy genspider waimai2 测试ip

这个时候的spider里面有：
学新通

做一个启动文件（启动两个spider的文件）和多个原理一样

创建一个run.py文件（与scrapy.cfg同级）

在scrapy官方文档解释的更加清楚

from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings
process = CrawlerProcess(get_project_settings())
#启动爬虫
process.crawl('waimai1')
process.crawl('waimai2')
process.start()

熟悉scrapy的人应该都知道

spider爬虫文件先把url传到调度器，然后调度器传到下载器，下载器完成任务以后通过callback=self.parser

然后解析函数通过解析（即正则，xpath、bs4）拿到我们想要的字段，在引入items

然后就是到了Pipeline，进行数据持久化

学过python的面向对象都知道分而治之的思想，所以我的思想也是分而治之的思想

即

一个spider对应独立的item方法
一个spider对应独立的pipeline方法

一个spider对应独立的`item`方法

首先要知道原来的items的基础模板

class DemoCrawlItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    pass

但是我就写两个不同名字的calss方法分别为DemoCrawl1Item和DemoCrawl2Item

waimai1对应着DemoCrawl1Item

waimai2对应着DemoCrawl2Item

逻辑整理清楚以后就是写代码了

import scrapy
#针对waimai1的item
class DemoCrawl1Item(scrapy.Item):
    age = scrapy.Field()#waimai1是age
#针对waimai2的item
class DemoCrawl2Item(scrapy.Item):
    name = scrapy.Field()#waimai2是name

然后我们去spider文件里面的waimai1.py的文件里面

把from ..items import DemoCrawl1Item引入进来（waimai2引入另外一个）

其他就是和正常的一个的spider的scrapy一模一样

指定管道

因为字段不同，所以一个pipeline只能针对一种字段进行数据保存，so，我们就写两个pipeline，并进行注册

class Waimai1Spider(scrapy.Spider):
    name = 'waimai1'
    allowed_domains = ['192.168.23.31:8090']
    def start_requests(self):
        for page in range(?,?)
        	url = f'http://www.百度.com/page={page}'#这是假的链接
            yield scrapy.Request(url=url,callback=self.parse_1)
    #指定管道
    custom_settings = {
        'ITEM_PIPELINES':{'demo_crawl.pipelines.DemoCrawl1Pipeline': 300}
    }
	def parse_1(slef):
        pass

然后我们到管道针对waimai1的字段进行单独处理

#外卖1的管道
class DemoCrawl1Pipeline:
    def process_item(self, item, spider):
        print("*" * 50)
        print(spider.name)
        print("*" * 50)
        return item

同理管道2也差不多

#外卖1的管道
class DemoCrawl1Pipeline:
    def process_item(self, item, spider):
        print("*" * 50)
        print(spider.name)
        print("*" * 50)
        return item

最后的结果输出

学新通
结束

这篇好文章是转载于：学新通技术网

scrapy项目做多个spider数据采集

一、scrapy多个spider爬取数据

为什么要多个spider呢？

二、进入正题

现在创建爬虫项目

创建多个spider

做一个启动文件（启动两个spider的文件）和多个原理一样

熟悉scrapy的人应该都知道

一个spider对应独立的`item`方法

指定管道

photoshop保存的图片太大微信发不了怎么办

word里面弄一个表格后上面的标题会跑到下面怎么办

《学习通》视频自动暂停处理方法

photoshop扩展功能面板显示灰色怎么办

Android 11 保存文件到外部存储，并分享文件

TikTok加速器哪个好免费的TK加速器推荐

微信公众号没有声音提示怎么办

excel下划线不显示怎么办

excel打印预览压线压字怎么办

微信运动停用后别人还能看到步数吗

scrapy项目做多个spider数据采集

一、scrapy多个spider爬取数据

为什么要多个spider呢？

二、进入正题

现在创建爬虫项目

创建多个spider

做一个启动文件（启动两个spider的文件）和多个原理一样

熟悉scrapy的人应该都知道

一个spider对应独立的item方法

指定管道

photoshop保存的图片太大微信发不了怎么办

word里面弄一个表格后上面的标题会跑到下面怎么办

《学习通》视频自动暂停处理方法

photoshop扩展功能面板显示灰色怎么办

Android 11 保存文件到外部存储，并分享文件

TikTok加速器哪个好免费的TK加速器推荐

微信公众号没有声音提示怎么办

excel下划线不显示怎么办

excel打印预览压线压字怎么办

微信运动停用后别人还能看到步数吗

一个spider对应独立的`item`方法