• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

scrapy极快入门

武飞扬头像
yub4by
帮助1

1. 安装

学新通

2. 项目创建与运行

学新通学新通

3. 项目组织架构

学新通

4. 工作原理

学新通学新通

5. 案例-百度首页

学新通

  1. 创建爬虫的项目 【scrapy startproject 项目的名字】
    注意:项目的名字不允许使用数字开头 也不能包含中文

  2. 创建爬虫文件
    要在spiders文件夹中去创建爬虫文件
    【cd 项目的名字\项目的名字\spiders】
    cd scrapy_百度_091\scrapy_百度_091\spiders
    创建爬虫文件
    【scrapy genspider 爬虫文件的名字 要爬取网页】
    eg:scrapy genspider 百度 http://www.百度.com
    一般情况下不需要添加http协议 因为start_urls的值是根据allowed_domains
    修改的 所以添加了http的话 那么start_urls就需要我们手动去修改了

  3. 运行爬虫代码
    【scrapy crawl 爬虫的名字】
    eg:scrapy crawl 百度

  4. [可选]scrapy shell 调试
    进入到scrapy shell的终端 直接在window的终端中输入【scrapy shell 域名】
    如果想看到一些高亮 或者 自动补全 那么可以安装ipython pip install ipython
    例如scrapy shell www.百度.com

6. 案例-58同城

学新通

  1. scrapy项目的结构
    项目名字
    项目名字
    spiders文件夹 (存储的是爬虫文件)
    init
    自定义的爬虫文件(核心功能文件)
    init
    items 定义数据结构的地方 爬取的数据都包含哪些
    middleware 中间件 代理
    pipelines 管道 用来处理下载的数据
    settings 配置文件 robots协议 ua定义等

  2. response的属性和方法
    response.text 获取的是响应的字符串
    response.body 获取的是二进制数据
    response.xpath 可以直接是xpath方法来解析response中的内容
    response.extract() 提取seletor对象的data属性值
    response.extract_first() 提取的seletor列表的第一个数据

7. 案例-汽车之家

学新通学新通学新通

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhfihfbi
系列文章
更多 icon
同类精品
更多 icon
继续加载