Python Scrapy使用XPath获取节点值/innerHTML

锐昆

2024-03-26 帮助1人

最近学习研究Scrapy，刚好遇到爬取文章正文内容，总是搞不定innerHTML 方法

找了很多，都是你抄我，我抄你的，也没有一个人验证的，最终只能自己实践，最终实现了获取节点下辖内容，记录一下，说不定以后要用的：

原始内容，只需要红色部分：

....<div class="content"><img src="https://blog.csdn.net/rekung/article/details/1-120F3103553G9.jpg" style="width: 600px; height: 450px;"><br>
关键词：中国古城PPT背景模板，古城PPT背景素材，黄色PPT背景</div>......

实现代码，主要是用 node() ，获取所有节点及文本，网上告诉的方法都是 text() 纯文本：

item["content"] = "".join(response.xpath("//div[@class='content']/node()").extract()).strip()

这篇好文章是转载于：学新通技术网

版权申明：本站部分内容来自互联网，仅供学习及演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，请提供相关证据及您的身份证明，我们将在收到邮件后48小时内删除。
本站站名：学新通技术网
本文地址： /boutique/detail/tanhfifjic

系列文章

Python Scrapy使用XPath获取节点值/innerHTML

photoshop保存的图片太大微信发不了怎么办

《学习通》视频自动暂停处理方法

Android 11 保存文件到外部存储，并分享文件

word里面弄一个表格后上面的标题会跑到下面怎么办

photoshop扩展功能面板显示灰色怎么办

微信公众号没有声音提示怎么办

excel下划线不显示怎么办

excel打印预览压线压字怎么办

TikTok加速器哪个好免费的TK加速器推荐

怎样阻止微信小程序自动打开