经典问题:Python实现生产者消费者模式的多线程爬虫
创始人
2024-05-12 09:29:17
0

Python实现生产者消费者模式的多线程爬虫

  • 1. 多组件的Pipeline技术架构
  • 2. 生产者消费者爬虫的架构
  • 3.多线程数据通信的queue.Queue
  • 4. 代码编写实现生产者消费者爬虫

1. 多组件的Pipeline技术架构

  • 复杂的事情一般都不会一下子做完,而是会分很多中间步骤一步步完成。
    在这里插入图片描述

2. 生产者消费者爬虫的架构

在这里插入图片描述

  • 根据需求,按照上面设计的架构,程序可以由两拨人开发,生产者组和消费者组,这样的架构设计,可以大大提高效率。

3.多线程数据通信的queue.Queue

  • queue.Queue可以用于多线程之间的、线程安全的数据通信
    1.导入类库
    import queue2.创建Queue
    q = queue.Queue()3. 添加元素
    q.put(item)4. 获取元素
    item = q.get()5. 查询状态
    # 查看元素的多少(个数)
    q.size()
    # 判断是否为空
    q.empty()
    # 判断是否已满
    q.full()
    

4. 代码编写实现生产者消费者爬虫

  • 还是抓取博客信息,包括两部分内容:网址链接和标题内容。

  • 下面第一步,先建立一个包含生产者和消费者的模型,对某博客信息进行分析。
    在这里插入图片描述

    # 这是blogSpider.py
    import requests
    from bs4 import BeautifulSoupurls = [f"https://www.cnblogs.com/#p{page}"for page in range(1,51)
    ]# 生产者
    def draw(url):r = requests.get(url)return r.text# 消费者
    def parse(html):# class="post-item-title"# html.parser类似lxml的一个解析库的功能模块soup = BeautifulSoup(html, "html.parser")links = soup.find_all("a", class_="post-item-title")# 用推导式收集博客文章的链接href和标题内容,并返回return [(link["href"],link.get_text()) for link in links ]if __name__ == "__main__":# for循环遍历解析(parse)所有爬取(draw)的网页信息,得到文章链接与标题for result in parse(draw(urls[2])):print(result)
    
    • 运行结果如下。
      在这里插入图片描述
  • 接着第二步,再建立队列,来进一步控制线程通信

    import queue
    import blogSpider
    import time
    import random
    import threading''' 1、生产者使用队列控制线程通信
    # 定义生产者线程用函数的同时,设置两个参数并表明都是Queue队列类型
    # url_queue里面放了网址,html_queue里面放了网页源代码
    # 这里get相当于生产,然后用html_queue.put(html)为后面消费做了准备
    '''def do_draw(url_queue: queue.Queue, html_queue: queue.Queue):while True:# 从总网页源代码中爬取并得到网址(从队列中取出一个元素)url = url_queue.get()# 调用前面blogSpider模块里面的draw方法得到网页内容(源代码)html = blogSpider.draw(url)# 把源代码放入html_queue队列,以备后面的消费者使用html_queue.put(html)# 打印显示线程名字、网址、和网址长度信息,随着后面的消费显示越来越少print(threading.current_thread().name, f"{url}", "url_queue.size=", url_queue.qsize())# 在1秒到2秒时间内随机休眠time.sleep(random.randint(1, 2))''' 2、消费者使用队列控制线程通信# 定义消费者线程用函数的同时,设置两个参数并表明都是Queue队列类型# 参数html_queue里面放了网址源代码(这是由生产者代码里面放入的),形成了放有网页源代码的列表# 参数fout是存放文本的文件,放了解析出来的结果,并以字符串的形式写入# 下面parse一组等于消费一个'''def do_parse(html_queue: queue.Queue, fout):while True:# 从所有解析出来的网页源代码中获取一份(从队列中取出一个元素)html = html_queue.get()# 调用前面blogSpider模块里面的parse方法得到网页地址和网页内容(标题信息)results = blogSpider.parse(html)# 遍历results列表并写入fout磁盘文本文件for result in results:fout.write(str(result) + "\n")# 打印输出包含“网页地址和网页内容”的结果集的个数和长度,显示越来越少print(threading.current_thread().name, f"results.size=", len(results), "html_queue.size=", html_queue.qsize())# 在1秒到2秒时间内随机休眠time.sleep(random.randint(1, 2))if __name__ == "__main__":url_queue = queue.Queue()html_queue = queue.Queue()# 这一步很重要,是整个程序的入口,必须遍历网页地址(urls列表),并逐个把url地址放入url_queue队列for url in blogSpider.urls:url_queue.put(url)# 建立三个线程作为生产者开始生产for i in range(3):t = threading.Thread(target=do_draw, args=(url_queue, html_queue),name=f"draw{i}")t.start()# 建立三个线程作为消费者开始消费fouts = open("02.data.txt", "w")for i in range(2):t = threading.Thread(target=do_parse, args=(html_queue, fouts),name=f"parse{i}")t.start()
    • 运行结果
      在这里插入图片描述
    • 上面代码主程序中,有3个生产者线程和2个消费者线程,这两个数字可以分别改动一下看看,会出现什么效果,结合程序代码中的注释,慢慢理解。

相关内容

热门资讯

【NI Multisim 14...   目录 序言 一、工具栏 🍊1.“标准”工具栏 🍊 2.视图工具...
银河麒麟V10SP1高级服务器... 银河麒麟高级服务器操作系统简介: 银河麒麟高级服务器操作系统V10是针对企业级关键业务...
不能访问光猫的的管理页面 光猫是现代家庭宽带网络的重要组成部分,它可以提供高速稳定的网络连接。但是,有时候我们会遇到不能访问光...
AWSECS:访问外部网络时出... 如果您在AWS ECS中部署了应用程序,并且该应用程序需要访问外部网络,但是无法正常访问,可能是因为...
Android|无法访问或保存... 这个问题可能是由于权限设置不正确导致的。您需要在应用程序清单文件中添加以下代码来请求适当的权限:此外...
北信源内网安全管理卸载 北信源内网安全管理是一款网络安全管理软件,主要用于保护内网安全。在日常使用过程中,卸载该软件是一种常...
AWSElasticBeans... 在Dockerfile中手动配置nginx反向代理。例如,在Dockerfile中添加以下代码:FR...
AsusVivobook无法开... 首先,我们可以尝试重置BIOS(Basic Input/Output System)来解决这个问题。...
ASM贪吃蛇游戏-解决错误的问... 要解决ASM贪吃蛇游戏中的错误问题,你可以按照以下步骤进行:首先,确定错误的具体表现和问题所在。在贪...
月入8000+的steam搬砖... 大家好,我是阿阳 今天要给大家介绍的是 steam 游戏搬砖项目,目前...