scrapy极快入门

武飞扬头像

yub4by

2024-03-27 帮助1人

1. 安装

学新通

2. 项目创建与运行

学新通

3. 项目组织架构

学新通

4. 工作原理

学新通

5. 案例-百度首页

学新通

创建爬虫的项目【scrapy startproject 项目的名字】
注意：项目的名字不允许使用数字开头也不能包含中文
创建爬虫文件
要在spiders文件夹中去创建爬虫文件
【cd 项目的名字\项目的名字\spiders】
cd scrapy_百度_091\scrapy_百度_091\spiders
创建爬虫文件
【scrapy genspider 爬虫文件的名字要爬取网页】
eg：scrapy genspider 百度 http://www.百度.com
一般情况下不需要添加http协议因为start_urls的值是根据allowed_domains
修改的所以添加了http的话那么start_urls就需要我们手动去修改了
运行爬虫代码
【scrapy crawl 爬虫的名字】
eg：scrapy crawl 百度
[可选]scrapy shell 调试
进入到scrapy shell的终端直接在window的终端中输入【scrapy shell 域名】
如果想看到一些高亮或者自动补全那么可以安装ipython pip install ipython
例如scrapy shell www.百度.com

6. 案例-58同城

学新通

scrapy项目的结构
项目名字
项目名字
spiders文件夹 (存储的是爬虫文件)
init
自定义的爬虫文件(核心功能文件)
init
items 定义数据结构的地方爬取的数据都包含哪些
middleware 中间件代理
pipelines 管道用来处理下载的数据
settings 配置文件 robots协议 ua定义等
response的属性和方法
response.text 获取的是响应的字符串
response.body 获取的是二进制数据
response.xpath 可以直接是xpath方法来解析response中的内容
response.extract() 提取seletor对象的data属性值
response.extract_first() 提取的seletor列表的第一个数据

7. 案例-汽车之家

学新通

这篇好文章是转载于：学新通技术网

版权申明：本站部分内容来自互联网，仅供学习及演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，请提供相关证据及您的身份证明，我们将在收到邮件后48小时内删除。
本站站名：学新通技术网
本文地址： /boutique/detail/tanhfihfbi

系列文章

同类精品