Python3网络爬虫:Scrapy框架的使用

武飞扬头像

Tango糖果π

2024-03-26 帮助1人

学新通

学新通

Scrapy框架项目使用步骤：

1.先安装Scrapy框架

pip install scrapy

2.使用命令可快速创建Scrapy项目 scrapy startproject 项目名字

scrapy startproject Tencent

学新通

在项目中，自动生成了如上多个文件，其中：

spiders包是自定义的爬虫文件夹
items.py文件是定义抓取的数据结构，就是爬虫所需要的字段，比如招聘标题、岗位等
middlewares.py文件是中间件，可以自定义requests请求和进行response过滤
pipelines.py文件是管道，处理引擎传过来的数据，比如存储
settings.py文件是项目的全局配置文件
scrapy.cfg文件是项目基本配置文件

3.创建完成后，切换到项目路径下 cd 项目名

cd Tencent

4.启动 Scrapy项目 scrapy genspider 爬虫名域名

scrapy genspider tencent careers.tencent.com

学新通

在spiders包下自动生成tencent.py文件

tencent.py文件是自定义的爬虫文件

5.编写爬虫文件

items.py 定义要抓取的数据结构如：name = scrapy.Field()
tencent.py 编写爬虫文件主体逻辑，实现数据的抓取
settings.py 修改全局配置文件
pipelines.py . 编写管道文件，将数据存入 MySQL 数据库和 CSV 文件中
world_cloud.py 编写词云图代码逻辑，实现词云图输出

6. 运行爬虫 scrapy crawl 爬虫名

scrapy crawl tencent

或者在spiders文件夹同级的路径下创建run.py启动文件：

# -*- coding:utf-8 -*-
from scrapy import cmdline
cmdline.execute("scrapy crawl tencent".split())

工程截图如下：

学新通

这篇好文章是转载于：学新通技术网

版权申明：本站部分内容来自互联网，仅供学习及演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，请提供相关证据及您的身份证明，我们将在收到邮件后48小时内删除。
本站站名：学新通技术网
本文地址： /boutique/detail/tanhfifjja

系列文章

同类精品

继续加载