python - 爬虫简介

武飞扬头像

六经注我

2024-04-22 帮助1人

什么是爬虫？

模拟浏览器对网站服务器发送请求
解析服务器返回的响应数据，并保存数据

爬虫能获取哪些数据？

原则上所有可以通过浏览器获取的数据都可以爬取
爬虫也只能获取爬取浏览器可以正常获取的数据

爬虫的应用场景？

数据分析 (如电影票房、股票信息、商品销量等)
舆情监控(如微博、论坛等)
搜索引擎刷浏览播放量等(如各类自媒体账号)
抢票投票(对购票、投票接口发送请求)
网络安全(短信轰炸- 多个网站发送验证码)

为什么会有反爬?

防止有价值的数据被恶意获取
封锁垃圾流量，降低服务器的压力和运行成本

爬虫与反爬的对抗？

部分数据需要登录才能获取
通过验证码甄别真人与爬虫
监测同一IP 地址单位时间内的请求量
请求需要携带特定的数据
响应数据被加密，需要特定的算法解密

学习内容

如何爬取网页数据? （如何对服务器发送请求，获取源文件）
- Requests 模块（对服务器发送请求，获取数据）
- 模拟真实浏览器状态
- 设置 Proxy 代理IP（避免单个ip发送过快，被服务器认为是爬虫）
如何提取关键数据?（如何在源文件中获取有用的数据）
- 正则表达式
- XPath 表达式
如何储存提取到的数据?
- MongoDB 数据库
Scrapy 框架爬取海量数据
- 集成发送请求，数据解析，数据保存
- Scrapy 结合 MongoDB 储存数据
Scrapy-Redis 分布式爬虫（多个机器共同爬取一个任务）
- Redis 数据库
- Scrapy-Redis 框架
模拟登陆
- 登陆原理: Cookie 和 Session
- Selenium 浏览器自动化
- 爬取需要登陆才能获取的数据
验证码识别
- OpenCV 计算机视觉
- OCR 文字识别引擎
- EasyDL 机器学习云服务
反爬与反反爬
- 破解文字加密反爬
- 各类加密算法:MD5，SHA256，AES，RSAc
- JS逆向分析:还原网站的加密流程
拓展内容
- 数据分析: Pandas 模块
- 高频面试题目

爬虫合法么?

作为技术本身在法律中是不被禁止的
爬虫能获取的数据都是能通过浏览器正常获取的公开数据
爬虫只是更快速的获取大量数据

有法律风险的情况？

结合爬虫对网站服务器进行黑客攻击
通过获取的数据谋取经济利益
通过爬虫进行不当的商业竞争
爬取的数据侵犯了对方的版权或隐私权

如何规避法律风险？

切勿对网站服务器进行大规模的请求轰炸
切勿对爬取到的数据进行公开传播或售卖
切勿对涉及知识产权和用户隐私的数据进行爬取

这篇好文章是转载于：学新通技术网

版权申明：本站部分内容来自互联网，仅供学习及演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，请提供相关证据及您的身份证明，我们将在收到邮件后48小时内删除。
本站站名：学新通技术网
本文地址： /boutique/detail/tanhgeecfk

系列文章

同类精品