• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

Python3网络爬虫:Scrapy框架的使用

武飞扬头像
Tango糖果π
帮助1

学新通

学新通

 Scrapy框架项目使用步骤:

1.先安装Scrapy框架

pip install scrapy

 2.使用命令可快速创建Scrapy项目 scrapy startproject 项目名字

 scrapy startproject Tencent

学新通

在项目中,自动生成了如上多个文件,其中:

  • spiders包是自定义的爬虫文件夹 
  • items.py文件是定义抓取的数据结构,就是爬虫所需要的字段,比如招聘标题、岗位等
  • middlewares.py文件是中间件,可以自定义requests请求和进行response过滤
  • pipelines.py文件是管道,处理引擎传过来的数据,比如存储
  • settings.py文件是项目的全局配置文件
  • scrapy.cfg文件是项目基本配置文件

 3.创建完成后,切换到项目路径下 cd 项目名

cd Tencent

4.启动 Scrapy项目 scrapy genspider 爬虫名 域名

scrapy genspider tencent  careers.tencent.com

学新通

在spiders包下自动生成tencent.py文件 

  • tencent.py文件是自定义的爬虫文件

5.编写爬虫文件 

  • items.py 定义要抓取的数据结构 如:name = scrapy.Field()
  • tencent.py 编写爬虫文件主体逻辑,实现数据的抓取
  • settings.py 修改 全局配置 文件
  • pipelines.py   . 编写管道文件 ,将数据存入 MySQL 数据库和 CSV 文件中
  • world_cloud.py 编写词云图代码逻辑,实现词云图输出

6. 运行爬虫 scrapy crawl 爬虫名

scrapy crawl tencent 

或者在spiders文件夹同级的路径下创建run.py启动文件:

  1.  
    # -*- coding:utf-8 -*-
  2.  
     
  3.  
    from scrapy import cmdline
  4.  
     
  5.  
    cmdline.execute("scrapy crawl tencent".split())

工程截图如下:

学新通

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhfifjja
系列文章
更多 icon
同类精品
更多 icon
继续加载