Python分布式爬虫
python操作redis:
redis的安装与连接:
连接服务:redis-server
打开图形化界面:redis-cli
字符串的相关操作:
import redis
class TestString(object):
# 初始化 连接redis数据库
def __init__(self):
self.r = redis.StrictRedis(host='127.0.0.1', port=6379)
# 设置值
def test_set(self):
res = self.r.set('user', 'maria')
print(res)
# 取值
def test_get(self):
res = self.r.get('user')
print(res, type(res))
res = res.decode('UTF-8')
print(res, type(res))
# 设置多个值
def test_mset(self):
d = {
'user2': 'yueyue-2',
'user3': 'yueyue-3'
}
res = self.r.mset(d)
print(res)
# 取多个值
def test_mget(self):
l = ['user2', 'user3']
res = self.r.mget(l)
print(res)
# 删除
def test_del(self):
self.r.delete('user2')
# 程序主入口
if __name__ == '__main__':
t = TestString() # 创建一个对象
t.test_set()
t.test_get()
启动 redis 服务,打开图形化界面,然后直接运行代码,
介绍: 1 Scrapy分布式爬虫意味着几台机器通过某种方式共同执行一套爬取任务, 这就首先要求每台机器都要有Scrapy框架,一套Scrapy框架就有一套Scrapy五大核心组件, 引擎--调度器--下载器--爬虫--项目管道,各自独有的调度器没有办法实现任务的共享, 所以不能实现分布式爬取。 2 假设可以实现Scrapy框架的调度器共享,那么就能实现分布式爬取了吗? 答案是不能,因为我们实现了任务的共享,但是框架之间的项目管道是单独的, 我们的任务下载完之后,我们爬取的有效信息还是不能全部存放在某个指定的位置, 所以要想实现分布式爬虫,需要同时满足调度器和项目管道的共享才可以达到分布式的效果。
分布式爬虫案例:
参考 盗墓笔记
这篇好文章是转载于:学新通技术网
- 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
- 本站站名: 学新通技术网
- 本文地址: /boutique/detail/tanhgbbcgh
系列文章
更多
同类精品
更多
-
photoshop保存的图片太大微信发不了怎么办
PHP中文网 06-15 -
《学习通》视频自动暂停处理方法
HelloWorld317 07-05 -
Android 11 保存文件到外部存储,并分享文件
Luke 10-12 -
word里面弄一个表格后上面的标题会跑到下面怎么办
PHP中文网 06-20 -
photoshop扩展功能面板显示灰色怎么办
PHP中文网 06-14 -
微信公众号没有声音提示怎么办
PHP中文网 03-31 -
excel下划线不显示怎么办
PHP中文网 06-23 -
excel打印预览压线压字怎么办
PHP中文网 06-22 -
TikTok加速器哪个好免费的TK加速器推荐
TK小达人 10-01 -
怎样阻止微信小程序自动打开
PHP中文网 06-13