python爬虫——使用scrapy爬取豆瓣影评操作
使用网站:https://movie.douban.com/review/best/
首先找到网页对应的User-Agent,在setting.py文件中进行修改
使用xpath对元素标签定位
-
import scrapy
-
-
class DoubanSpider(scrapy.Spider):
-
name = 'douban'
-
# allowed_domains = ['www.xxx.com']
-
start_urls = ['https://movie.douban.com/review/best']
-
-
def parse(self, response):
-
div_list = response.xpath('//*[@class="review-list chart "]/div')
-
for div in div_list:
-
# xpath返回的是列表,但是列表元素一定是selector类型的对象
-
# extract 可以将selector对象中data参数存储的字符串提取出来
-
title = div.xpath('.//*[@class="subject-img"]/img/@title')[0].extract()
-
# 列表调用了extract之后,则表示将列表中每一个selector对象中data对应的字符串提取出来
-
content = div.xpath('.//*[@class="main-bd"]/h2/a/text()').extract()
-
# 将列表转移成字符串
-
content = ''.join(content)
-
# print(div.xpath('.//*[@class="main-bd"]/h2/a/text()').extract_first()) # 列表中只有一个元素可以使用extract_first
-
print(title,'—————————',content)
爬取结果:
这篇好文章是转载于:学新通技术网
- 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
- 本站站名: 学新通技术网
- 本文地址: /boutique/detail/tanhfiikgg
系列文章
更多
同类精品
更多
-
photoshop保存的图片太大微信发不了怎么办
PHP中文网 06-15 -
《学习通》视频自动暂停处理方法
HelloWorld317 07-05 -
Android 11 保存文件到外部存储,并分享文件
Luke 10-12 -
word里面弄一个表格后上面的标题会跑到下面怎么办
PHP中文网 06-20 -
photoshop扩展功能面板显示灰色怎么办
PHP中文网 06-14 -
微信公众号没有声音提示怎么办
PHP中文网 03-31 -
excel下划线不显示怎么办
PHP中文网 06-23 -
excel打印预览压线压字怎么办
PHP中文网 06-22 -
TikTok加速器哪个好免费的TK加速器推荐
TK小达人 10-01 -
怎样阻止微信小程序自动打开
PHP中文网 06-13