python爬虫——使用scrapy爬取豆瓣影评操作

武飞扬头像

柿子镭

2024-03-28 帮助1人

使用网站：https://movie.douban.com/review/best/

首先找到网页对应的User-Agent，在setting.py文件中进行修改

学新通

学新通

使用xpath对元素标签定位

import scrapy
class DoubanSpider(scrapy.Spider):
name = 'douban'
# allowed_domains = ['www.xxx.com']
start_urls = ['https://movie.douban.com/review/best']
def parse(self, response):
div_list = response.xpath('//*[@class="review-list chart "]/div')
for div in div_list:
# xpath返回的是列表，但是列表元素一定是selector类型的对象
# extract 可以将selector对象中data参数存储的字符串提取出来
title = div.xpath('.//*[@class="subject-img"]/img/@title')[0].extract()
# 列表调用了extract之后，则表示将列表中每一个selector对象中data对应的字符串提取出来
content = div.xpath('.//*[@class="main-bd"]/h2/a/text()').extract()
# 将列表转移成字符串
content = ''.join(content)
# print(div.xpath('.//*[@class="main-bd"]/h2/a/text()').extract_first()) # 列表中只有一个元素可以使用extract_first
print(title,'—————————',content)

学新通

爬取结果：

学新通

这篇好文章是转载于：学新通技术网

版权申明：本站部分内容来自互联网，仅供学习及演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，请提供相关证据及您的身份证明，我们将在收到邮件后48小时内删除。
本站站名：学新通技术网
本文地址： /boutique/detail/tanhfiikgg

系列文章

同类精品