超高速异步协程Python爬虫

Simpyder - Simple Python Spider Simpyder - 轻量级 协程 Python爬虫 特点 轻量级:下载便利

本文包含相关资料包-----> 点击直达获取<-------

Simpyder - Simple Python Spider

Simpyder - 轻量级 协程 Python爬虫

特点

  • 轻量级:下载便利,依赖较少,使用简单。
  • 协程:单线程,通过协程实现并发。
  • 可定制:简单配置,适应各种爬取场合。

快速开始

下载

```bash

使用pip3

pip3 install simpyder --user ```

```bash

更新包

pip3 install simpyder --upgrade ```

编码

用户只需要定义三个函数,实现三个模块:

链接获取

我们需要一个定义一个异步生成器,用于产生链接。

python async def gen_url(): for each_id in range(100): yield "https://www.biliob.com/api/video/{}".format(each_id)

链接解析

我们需要定义一个解析链接的函数。其中第一个参数是Response对象,也就是上述函数对应URL的访问结果。

该函数需要返回一个对象,作为处理结果。

注意,与普通函数不同,这是一个协程函数。需要在前面加上 async 。代表该函数是异步的。

python async def parse(response): return response.xpath('//meta[@name="title"]/@content')[0]

数据导出

上面函数的处理结果将在这个函数中统一被导出。下列例子为直接在控制台中打印导出结果。

保存需要IO操作,因此这个函数可能运行较慢,因此也需要是异步的。我们在前面添加 async 关键词

python async def save(item): print(item)

然后将这些模块组成一个Spider

首先导入爬虫对象:

python import AsynSpider from simpyder.spiders

你可以这样组装Spider

python spider = AsyncSpider() spider.gen_url = gen_url spider.parse = parse spider.save = save

接着就可以开始爬虫任务

python s.run()

你也可以通过构造函数进行一些配置

``` python

spider = AsyncSpider(name="TEST") ```

示例程序

``` python from simpyder.spiders import AsynSpider

new一个异步爬虫

s = AsynSpider()

定义链接生成的生成器,这里是爬取800次百度首页的爬虫

def g(): count = 0 while count < 800: count += 1 yield "https://www.baidu.com"

绑定生成器

s.gen_url = g

定义用于解析的异步函数,这里不进行任何操作,返回一段文本

async def p(res): return "parsed item"

绑定解析器

s.parse = p

定义用于存储的异步函数,这里不进行任何操作,但是返回2,表示解析出2个对象

async def s(item): return 2

绑定存储器

s.save = s

运行

s.run()

```

理论速率

运行上述代码,可以得到单进程、并发数:64、仅进行计数操作的下载速率:

log [2020-09-02 23:42:48,097][CRITICAL] @ Simpyder: user_agent: Simpyder ver.0.1.9 [2020-09-02 23:42:48,169][CRITICAL] @ Simpyder: concurrency: 64 [2020-09-02 23:42:48,244][CRITICAL] @ Simpyder: interval: 0 [2020-09-02 23:42:48,313][INFO] @ Simpyder: 已经爬取0个链接(0/min),共产生0个对象(0/min) [2020-09-02 23:42:48,319][INFO] @ Simpyder: Start Crawler: 0 [2020-09-02 23:42:53,325][INFO] @ Simpyder: 已经爬取361个链接(4332/min),共产生658个对象(7896/min) [2020-09-02 23:42:58,304][INFO] @ Simpyder: 已经爬取792个链接(5280/min),共产生1540个对象(10266/min) [2020-09-02 23:43:03,304][INFO] @ Simpyder: 已经爬取1024个链接(4388/min),共产生2048个对象(8777/min) [2020-09-02 23:43:05,007][CRITICAL] @ Simpyder: Simpyder任务执行完毕 [2020-09-02 23:43:05,008][CRITICAL] @ Simpyder: 累计消耗时间:0:00:16.695013 [2020-09-02 23:43:05,008][CRITICAL] @ Simpyder: 累计爬取链接:1024 [2020-09-02 23:43:05,009][CRITICAL] @ Simpyder: 累计生成对象:2048


  • 该项目由https://github.com/Jannchie维护
  • 你可以通过邮箱jannchie@gmail.com进行联系

参考文献

  • 面向垂直搜索的聚焦爬虫研究及应用(浙江大学·吕昊)
  • 聚焦爬虫技术研究(江南大学·倪贤贵)
  • 支持AJAX的分布式爬虫系统的研究与实现(华中科技大学·邬柏)
  • 恶意URL检测项目中基于PageRank算法的网络爬虫的设计和实现(北京邮电大学·王晓梅)
  • 网络爬虫技术在云平台上的研究与实现(电子科技大学·刘小云)
  • 搜索引擎中通用爬虫系统的研究与设计(吉林大学·高龙)
  • 分布式爬虫任务调度与AJAX页面抓取研究(电子科技大学·李婷)
  • 主题微博爬虫的设计与实现(中原工学院·王艳阁)
  • 网络爬虫技术在云平台上的研究与实现(电子科技大学·刘小云)
  • 多Agent间协作与竞争机制的研究(西华大学·冯祖光)
  • 支持AJAX的网络爬虫系统设计与实现(中国科学技术大学·曾伟辉)
  • 分布式网络爬虫技术的研究与实现(哈尔滨工业大学·苏旋)
  • 支持AJAX的网络爬虫系统设计与实现(中国科学技术大学·曾伟辉)
  • 网络爬虫技术在云平台上的研究与实现(电子科技大学·刘小云)
  • 支持AJAX的分布式爬虫系统的研究与实现(华中科技大学·邬柏)

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码驿站 ,原文地址:https://m.bishedaima.com/yuanma/35634.html

相关推荐

  • 基于Python密码的加密

    密码的加密 一,绪论 本章是全篇的绪论部分,首先描述了 DES 算法的整体研究背景并论述了加密技术的重大意义;其次在阅览大量中英文文献后针对当前国内外对于 DES 应用的研究现状做了综述;最后概括性地总结了本文的主要研究工作以及全篇的结构安排
    2024年05月14日
    5 1 1
  • 基于jsp+servlet的人力资源管理系统

    这是一个🔥🔥基于jsp+servlet的人力资源管理系统🔥🔥的项目源码,开发语言Java,开发环境Idea/Eclipse,这个 人力资源管理系统开发技术栈为JSP项目
    2024年05月23日
    33 1 6
  • 基于java的人机五子棋

    基于java的人机五子棋 1 任务设计书 本项目要实现的是五子棋人机版,通过制定棋型的评分表使机器能够对棋盘局势评估,五子棋玩家双方分别称为“人”,“机器”
    2024年05月14日
    3 1 1
  • 将算术表达式转换成三元式的程序实现

    这是一个🔥🔥将算术表达式转换成三元式的程序实现🔥🔥的项目源码,开发语言Java,开发环境Idea/Eclipse,这个 转换三元式开发技术栈为课程设计,可以作为毕业设计课程设计作业设计一个语法制导翻译程序
    2024年05月23日
    10 1 1
  • 基于SpringBoot框架的酒店客房管理系统

    这是一套采用Java语言编写的🔥🔥酒店客房管理系统的源代码,基于SpringBoot框架构建,我们运用了现代化的SpringBoot和Vue技术栈,开发工具为Idea或Eclipse
    2024年05月23日
    8 1 2
  • 基于javaweb+fullcalender.js的排班管理系统源代码

    这是一个🔥🔥基于javaweb的排班管理系统源代码🔥🔥的项目源码,开发语言Java,开发环境Idea/Eclipse,这个 排班管理系统开发技术栈为SSM项目,可以作为毕业设计课程设计作业基于JavaWeb即使开发实现一个排班系统
    2024年05月23日
    4 1 1
  • 产品展示交易平台

    这是一个🔥🔥基于SpringBoot框架的产品展示交易平台设计与实现🔥🔥的项目源码,开发语言Java,框架使用的SpringBoot+vue技术,开发环境Idea/Eclipse
    2024年05月23日
    4 1 1
  • 基于SSM和mysql实现的宿舍管理系统·

    基于SSM和mysql实现的宿舍管理系统· 1,项目简介 宿舍管理是高校管理的重要组成部分,一套优秀的管理系统不仅可以降低宿舍管理的难度,也能在一定程度上减少学校管理费用的支出
    2024年05月14日
    16 1 1
  • 基于SpringBoot框架的华府便利店信息管理系统

    这是一套采用Java语言开发的便利店信息管理系统源代码,其构建于流行的SpringBoot框架之上,并结合了Vue技术,开发工具选择的是Idea或Eclipse,此系统适用于作为毕业设计或课程设计任务
    2024年05月23日
    9 1 2
  • 新闻推荐系统

    这是一个🔥🔥基于SpringBoot框架的新闻推荐系统设计与实现🔥🔥的项目源码,开发语言Java,框架使用的SpringBoot+vue技术,开发环境Idea/Eclipse
    2024年05月23日
    2 1 2

发表回复

登录后才能评论