Python3网络爬虫:Scrapy框架的使用
Scrapy框架项目使用步骤:
1.先安装Scrapy框架
pip install scrapy
2.使用命令可快速创建Scrapy项目 scrapy startproject 项目名字
scrapy startproject Tencent
在项目中,自动生成了如上多个文件,其中:
- spiders包是自定义的爬虫文件夹
- items.py文件是定义抓取的数据结构,就是爬虫所需要的字段,比如招聘标题、岗位等
- middlewares.py文件是中间件,可以自定义requests请求和进行response过滤
- pipelines.py文件是管道,处理引擎传过来的数据,比如存储
- settings.py文件是项目的全局配置文件
- scrapy.cfg文件是项目基本配置文件
3.创建完成后,切换到项目路径下 cd 项目名
cd Tencent
4.启动 Scrapy项目 scrapy genspider 爬虫名 域名
scrapy genspider tencent careers.tencent.com
在spiders包下自动生成tencent.py文件
- tencent.py文件是自定义的爬虫文件
5.编写爬虫文件
- items.py 定义要抓取的数据结构 如:name = scrapy.Field()
-
tencent.py 编写爬虫文件主体逻辑,实现数据的抓取
-
settings.py 修改 全局配置 文件
-
pipelines.py . 编写管道文件 ,将数据存入 MySQL 数据库和 CSV 文件中
-
world_cloud.py 编写词云图代码逻辑,实现词云图输出
6. 运行爬虫 scrapy crawl 爬虫名
scrapy crawl tencent
或者在spiders文件夹同级的路径下创建run.py启动文件:
-
# -*- coding:utf-8 -*-
-
-
from scrapy import cmdline
-
-
cmdline.execute("scrapy crawl tencent".split())
工程截图如下:
这篇好文章是转载于:学新通技术网
- 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
- 本站站名: 学新通技术网
- 本文地址: /boutique/detail/tanhfifjja
系列文章
更多
同类精品
更多
-
photoshop保存的图片太大微信发不了怎么办
PHP中文网 06-15 -
Android 11 保存文件到外部存储,并分享文件
Luke 10-12 -
word里面弄一个表格后上面的标题会跑到下面怎么办
PHP中文网 06-20 -
《学习通》视频自动暂停处理方法
HelloWorld317 07-05 -
photoshop扩展功能面板显示灰色怎么办
PHP中文网 06-14 -
微信公众号没有声音提示怎么办
PHP中文网 03-31 -
excel下划线不显示怎么办
PHP中文网 06-23 -
excel打印预览压线压字怎么办
PHP中文网 06-22 -
怎样阻止微信小程序自动打开
PHP中文网 06-13 -
TikTok加速器哪个好免费的TK加速器推荐
TK小达人 10-01