• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

python爬虫——使用scrapy爬取豆瓣影评操作

武飞扬头像
柿子镭
帮助1

 使用网站:https://movie.douban.com/review/best/

首先找到网页对应的User-Agent,在setting.py文件中进行修改

学新通

学新通

 使用xpath对元素标签定位

  1.  
    import scrapy
  2.  
     
  3.  
    class DoubanSpider(scrapy.Spider):
  4.  
    name = 'douban'
  5.  
    # allowed_domains = ['www.xxx.com']
  6.  
    start_urls = ['https://movie.douban.com/review/best']
  7.  
     
  8.  
    def parse(self, response):
  9.  
    div_list = response.xpath('//*[@class="review-list chart "]/div')
  10.  
    for div in div_list:
  11.  
    # xpath返回的是列表,但是列表元素一定是selector类型的对象
  12.  
    # extract 可以将selector对象中data参数存储的字符串提取出来
  13.  
    title = div.xpath('.//*[@class="subject-img"]/img/@title')[0].extract()
  14.  
    # 列表调用了extract之后,则表示将列表中每一个selector对象中data对应的字符串提取出来
  15.  
    content = div.xpath('.//*[@class="main-bd"]/h2/a/text()').extract()
  16.  
    # 将列表转移成字符串
  17.  
    content = ''.join(content)
  18.  
    # print(div.xpath('.//*[@class="main-bd"]/h2/a/text()').extract_first()) # 列表中只有一个元素可以使用extract_first
  19.  
    print(title,'—————————',content)
学新通

爬取结果: 

学新通

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhfiikgg
系列文章
更多 icon
同类精品
更多 icon
继续加载