Python分布式爬虫

素年凉音

2024-04-13 帮助1人

python操作redis：

redis的安装与连接：

连接服务：redis-server

打开图形化界面：redis-cli

字符串的相关操作：

import redis


class TestString(object):
    # 初始化 连接redis数据库
    def __init__(self):
        self.r = redis.StrictRedis(host='127.0.0.1', port=6379)

    # 设置值
    def test_set(self):
        res = self.r.set('user', 'maria')
        print(res)

    # 取值
    def test_get(self):
        res = self.r.get('user')
        print(res, type(res))
        res = res.decode('UTF-8')
        print(res, type(res))

    # 设置多个值
    def test_mset(self):
        d = {
            'user2': 'yueyue-2',
            'user3': 'yueyue-3'
        }
        res = self.r.mset(d)
        print(res)

    # 取多个值
    def test_mget(self):
        l = ['user2', 'user3']
        res = self.r.mget(l)
        print(res)

    # 删除
    def test_del(self):
        self.r.delete('user2')


# 程序主入口
if __name__ == '__main__':
    t = TestString()  # 创建一个对象
    t.test_set()
    t.test_get()

启动 redis 服务，打开图形化界面，然后直接运行代码，

学新通

介绍： 1 Scrapy分布式爬虫意味着几台机器通过某种方式共同执行一套爬取任务，这就首先要求每台机器都要有Scrapy框架，一套Scrapy框架就有一套Scrapy五大核心组件，引擎--调度器--下载器--爬虫--项目管道，各自独有的调度器没有办法实现任务的共享，所以不能实现分布式爬取。 2 假设可以实现Scrapy框架的调度器共享，那么就能实现分布式爬取了吗？答案是不能，因为我们实现了任务的共享，但是框架之间的项目管道是单独的，我们的任务下载完之后，我们爬取的有效信息还是不能全部存放在某个指定的位置，所以要想实现分布式爬虫，需要同时满足调度器和项目管道的共享才可以达到分布式的效果。

分布式爬虫案例：

参考盗墓笔记

这篇好文章是转载于：学新通技术网

Python分布式爬虫

python操作redis：

photoshop保存的图片太大微信发不了怎么办

《学习通》视频自动暂停处理方法

Android 11 保存文件到外部存储，并分享文件

word里面弄一个表格后上面的标题会跑到下面怎么办

photoshop扩展功能面板显示灰色怎么办

微信公众号没有声音提示怎么办

excel下划线不显示怎么办

excel打印预览压线压字怎么办

TikTok加速器哪个好免费的TK加速器推荐

怎样阻止微信小程序自动打开