scrapy极快入门
1. 安装
2. 项目创建与运行
3. 项目组织架构
4. 工作原理
5. 案例-百度首页
-
创建爬虫的项目 【scrapy startproject 项目的名字】
注意:项目的名字不允许使用数字开头 也不能包含中文 -
创建爬虫文件
要在spiders文件夹中去创建爬虫文件
【cd 项目的名字\项目的名字\spiders】
cd scrapy_百度_091\scrapy_百度_091\spiders
创建爬虫文件
【scrapy genspider 爬虫文件的名字 要爬取网页】
eg:scrapy genspider 百度 http://www.百度.com
一般情况下不需要添加http协议 因为start_urls的值是根据allowed_domains
修改的 所以添加了http的话 那么start_urls就需要我们手动去修改了 -
运行爬虫代码
【scrapy crawl 爬虫的名字】
eg:scrapy crawl 百度 -
[可选]scrapy shell 调试
进入到scrapy shell的终端 直接在window的终端中输入【scrapy shell 域名】
如果想看到一些高亮 或者 自动补全 那么可以安装ipython pip install ipython
例如scrapy shell www.百度.com
6. 案例-58同城
-
scrapy项目的结构
项目名字
项目名字
spiders文件夹 (存储的是爬虫文件)
init
自定义的爬虫文件(核心功能文件)
init
items 定义数据结构的地方 爬取的数据都包含哪些
middleware 中间件 代理
pipelines 管道 用来处理下载的数据
settings 配置文件 robots协议 ua定义等 -
response的属性和方法
response.text 获取的是响应的字符串
response.body 获取的是二进制数据
response.xpath 可以直接是xpath方法来解析response中的内容
response.extract() 提取seletor对象的data属性值
response.extract_first() 提取的seletor列表的第一个数据
7. 案例-汽车之家
这篇好文章是转载于:学新通技术网
- 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
- 本站站名: 学新通技术网
- 本文地址: /boutique/detail/tanhfihfbi
-
photoshop保存的图片太大微信发不了怎么办
PHP中文网 06-15 -
《学习通》视频自动暂停处理方法
HelloWorld317 07-05 -
Android 11 保存文件到外部存储,并分享文件
Luke 10-12 -
word里面弄一个表格后上面的标题会跑到下面怎么办
PHP中文网 06-20 -
photoshop扩展功能面板显示灰色怎么办
PHP中文网 06-14 -
微信公众号没有声音提示怎么办
PHP中文网 03-31 -
excel下划线不显示怎么办
PHP中文网 06-23 -
excel打印预览压线压字怎么办
PHP中文网 06-22 -
TikTok加速器哪个好免费的TK加速器推荐
TK小达人 10-01 -
怎样阻止微信小程序自动打开
PHP中文网 06-13