7篇关于布隆过滤器的计算机毕业论文

今天分享的是关于布隆过滤器的7篇计算机毕业论文范文, 如果你的论文涉及到布隆过滤器等主题,本文能够帮助到你

基于区块链的多式联运物流系统架构及关键技术研究

这是一篇关于多式联运,区块链,智能合约,布隆过滤器,实用拜占庭容错算法的论文, 主要内容为多式联运是指同一批货物在不更换包装方式的前提下通过两种以上的运输方式进行运输。多式联运整个业务流程涉及多个参与主体,存在各主体之间没有统一的多式联运管理信息平台,信息共享存在壁垒、缺乏统一的单证、监管困难,难以明确责任人、缺乏信任等诸多问题。区块链具有公开透明、人人记账、人人查账、可承载数字货币、系统安全可靠的特点,这些特点恰好能解决多式联运目前面临的发展阻碍。本文首先对区块链的智能合约和实用拜占庭容错算法进行改进,就目前存在的查询效率低、吞吐量不高、通信开销大、交易时延长的弊端提出创新性改进。其次针对目前多式联运物流系统存在的问题进行研究,提出了构建一种以区块链为架构的多式联运物流平台,多式联运整个业务流程中的多式联运经营人、政府相关部门、企业及金融机构等参与者作为区块链的节点,使用智能合约控制业务流程,作为交易的凭证,简化业务流程和人员的投入。本文将完成以下任务:(1)对区块链的性能提出改进,针对多式联运业务的交易量大的特点,提出以下两点改进,首先对区块链中数据的检索效率提出改进,构建基于轻量级布隆过滤器的智能合约检索模型,将标准型布隆过滤器改进为轻量级布隆过滤器,提高检索效率,降低误差概率。其次改进实用拜占庭容错算法,提出简化的实用拜占庭容错算法(Simplified-PBFT,S-PBFT),该算法引入仲裁机制解决实用拜占庭动态节点离开和加入冲突,改进实用拜占庭容错算法的共识机制,将一致性协议的三个阶段简化为两个阶段,降低时延,减少通信开销,提高系统的吞吐量,满足多式联运的业务需求。(2)对多式联运业务流程进行深入研究,实际调研多式联运物流企业和港口,收集整理用户提出的对多式联运发展的需求,并对需求进行分析。设计基于区块链架构下的多式联运物流平台,并完成设计和测试。经过实验测试,结果表明本文设计的基于区块链的多式联运物流平台可以满足多式联运的功能和性能需求,解决了多式联运缺乏统一的物流信息平台和重复填写单证的问题。轻量级布隆过滤器提高了区块链中对数据的检索效率,并提高了区块链的吞吐量,本文对实用拜占庭容错算法改进后提出的S-PBFT算法在吞吐量、通信开销、时延上均有不同程度的提高。

分布式链接提取及DNS缓存技术研究

这是一篇关于比价爬虫系统,链接去重,链接提取,布隆过滤器,DNS缓存的论文, 主要内容为随着互联网技术的迅猛发展,互联网应用已无处不在,搜索引擎正成为人们检索信息必不可少的工具。越来越多的人喜欢在网上购物,但是网上商品种类繁多,价格高低不同且商家良莠不齐,消费者需要花费大量时间去寻找高性价比的商品,同时企业也需要对同类商品进行竞品分析,作出相关决策调整。因此研发比价爬虫系统能够满足上述需求。以读研期间参与研发的农产品质量追溯平台上的茶产品为例,茶产品的数据来源可以通过分布式茶产品比价爬虫系统来获取,通过提高对茶产品相关链接提取的准确率和分布式爬虫的DNS缓存解析效率,进而优化茶产品比价爬虫系统的性能。针对主题链接精准抽取的问题,通过对链接去重和相关链接提取进行优化。依据链接的多段特征和计数布隆过滤器的原理,提出基于链接特征的计数布隆过滤器,利用多重哈希对整体和多段部分链接的组合进行联合判重,降低了链接去重的误判率。通过访问路径上锚属性的富集和页面主题集成属性,摒弃噪声链接,提高了主题链接准确率。最后进行仿真实验,验证结果证明这两种方法可以提高主题链接提取的准确率。针对分布式网络爬虫的DNS缓存解析效率的问题,运用了一种正负向双缓存结合的分布式DNS缓存策略加以优化。DNS正负向缓存结构使用层次树保存正向缓存映射,对于异常解析域名单独建立负向缓存映射并用哈希表实现,各节点共享DNS缓存映射队列。缓存策略通过对域名预解析,并将解析的IP存入正向缓存结构,并用异步非阻塞方式并发处理DNS的查询请求,有效加快了DNS的解析速率。经仿真实验验证表明,提高了分布式茶产品爬虫系统的DNS解析效率。通过选取茶产品网站为研究对象,优化提高茶产品主题相关链接提取的准确率和分布式茶产品爬虫的DNS解析效率两个关键技术点,经过实际系统测试表明,分布式茶产品比价爬虫系统的性能得到了一定程度的提升。

基于Scrapy的分布式网络爬虫系统设计与实现

这是一篇关于Scrapy框架,分布式网络爬虫,布隆过滤器,限速策略,任务调度的论文, 主要内容为随着互联网飞速的发展,网络上的信息呈指数级的增长,如此高的信息数量级也给用户获取信息带来了巨大的挑战。网络爬虫作为获取数据的工具常常被应用于搜索引擎当中,然而面向中小规模系统的网络爬虫由于其自身的局限性常常面临诸多问题,例如单机的网络爬虫程序抓取数据速度太慢,而大多数成熟的开源网络爬虫框架都未实现分布式化;互联网中的网页结构各不相同,单一的网络爬虫程序无法匹配所有类型的网页等等。因此设计并实现一个可定制性高的、简单稳定的、面向中小规模的高性能分布式爬虫具有很重要的意义,本文在Scrapy框架的基础上结合Redis数据库设计并实现了一个分布式网络爬虫系统,使用者通过简单的配置即能快速的抓取到其想要的数据。本文的主要工作包括以下几点:(1)重点研究了主从式架构下的任务调度算法,并在此基础上提出了一种动态反馈的任务调度策略。主节点在掌握从节点群中各个Scrapy爬虫实时状态的情况下使用该策略进行任务调度,并在爬虫节点发生变化时进行相应的任务调整,确保系统中的各个爬虫节点动态负载均衡。(2)针对传统的基于内存或磁盘的URL去重时导致的空间占用率过高的问题,本文结合布隆过滤器算法提出了一种海量URL去重策略,该策略利用多个哈希函数对原始的URL数据集进行空间映射压缩,降低其空间的占有率,并且在查询过程中,仅通过一次哈希即可判断某URL是否抓取过,大大提高了查询效率。(3)设计并实现了一种多节点下的爬虫限速策略,集群中的爬虫节点能根据用户设定的频率来访问对应的站点。其中基于IP的限速限定了同一台机器中的爬虫节点访问某站点的频率,基于爬虫类型的限速限定了同一种类型的爬虫节点访问某站点的频率。(4)对Scrapy框架中的调度器、数据采集以及数据管道组件重新定制开发,调度器的开发使其支持分布式采集,数据采集的开发使其支持带采集规则的数据抽取,数据管道的开发使其支持数据清洗、编码转换以及正文提取等功能。(5)基于Twisted框架设计并实现了一个异步任务响应的爬虫管理器,用户通过该管理器能方便的控制各节点上的Scrapy爬虫。

基于Bloom Filter算法的URL去重算法研究及其应用

这是一篇关于数据检索,网络爬虫,URL去重,布隆过滤器,并行的论文, 主要内容为随着互联网技术的快速发展,各种各样的网络信息也呈指数级增长,海量而复杂的网络信息给人们提供更多可用数据的同时,有效的信息检索难度也越来越大。在这种情况下,我们就需要一个信息检索工具来进行有效信息的检索,那就是搜索引擎。网络爬虫作为搜索引擎中的核心技术,为用户的信息检索提供了很大便利。本文的主要研究内容就是关于网络爬虫相关技术。网络爬虫系统根据初始种子URL,获取网页中的下层链接并放入待爬取URL列表,逐层进行直至到达系统设置最大层级或者到达最终所需信息所在页面,然后对该页面进行解析,最终获取到页面中用户所需信息。在爬虫获取网页数据过程中,各个层级中获取到的URL链接可能存在大量的重复,比如根据图书分类页爬取某个网站图书的信息时,同一本图书很可能会有多个分类标签,当对不同标签下的图书进行爬取时,就可能出现多次爬取到同一本图书的情况,这就导致了在执行过程中系统需要重复获取和解析相同页面,从而造成了时间以及存储空间的很大浪费。另外我们熟悉的单线程模式的数据处理方式在在进行URL处理时比较耗时,导致系统执行效率较低。针对上述问题,本文从提高爬虫系统检索效率和准确率的角度出发主要做了以下工作:1.对影响爬虫效率的因素进行研究,考虑到爬虫系统中主要的工作量在于获取和解析网页,当URL重复时,多次解析同一个页面就造成了CPU资源的浪费,降低了爬虫系统效率且浪费了系统的存储空间。为了解决这一问题,本文对比多种URL去重策略,然后对更加适合于URL去重的布隆过滤算法(Bloom Filter)进行深入的研究并对其存在的误判率较高的缺点进行改进,提出多特征值Hash拆分映射布隆过滤算法,并从理论和实验两方面论证改进型算法的有效性。2.为了提高爬虫系统运行效率,在使用上述改进型布隆过滤器算法对存在重复的URL链接进行去重的过程中,提出采用并行动态任务分配的策略实现URL消重。该并行方法不同于常见的通过消息队列实现URL互斥读取并进行处理的并行方式。该并行策略是将URL数据集进行分块并为每一个数据块分配一个线程来实现多个数据块的并行去重操作,这样就避免了多线程对同一URL数据集互斥读数时额外的消耗数据读取和消重的等待时间的问题。接着在对数据进行分块后,为每一个数据块增加一个监控线程用来检测数据块中URL剩余量,以便于及时的为已经处理完的数据块调取数据,实现线程间的动态数据量调整,进一步提高并行效率。3.最后针对项目需求,设计并实现了针对某网站图书信息的网络爬虫系统,在获取到图书详情页URL后,将本文提出的改进型布隆过滤器算法和并行动态任务分配策略应用在该系统中来进行URL的去重操作。通过实验证实,本文提出的改进型布隆过滤器算法在达到了较好的URL去重效果的同时,也降低了URL去重的误判率,提高了数据去重中的误判率。本文提出的URL消重算法在执行过程中采用并行动态任务调整的处理方法,有效提高了CPU的利用率,加快了URL消重速度,同时也提高了系统执行效率。

面向高并发的短信调研系统设计与开发

这是一篇关于去重,布隆过滤器,高并发,系统架构的论文, 主要内容为滴滴出行是一个规模巨大的网约车出行互联网公司,如何把握市场变化来扩大公司运营规模,获取用户第一意愿是非常重要的。原本各业务部门的问卷调研方式都是自行维护,用户都是独自分开的,同一时段不同部门下发不同调研任务,会存在对同一用户下发多个调研信息的情况,造成用户反感。并且由于调研数据的不互通,无法有效的对调研整体情况进行分析优化。调研问卷系统应运而生,将所有的用户调研归于一处,为整个公司提供调研服务。被调研用户量的激增对系统的健壮性带来考验。所以针对这些问题本系统设计了调研管理、调研NPS(Net Promoter Score)问卷、数据去重、调研发送等主要模块来解决。调研管理模块通过调研组和调研任务的关联关系来保证同一调研组内,同一个调研问卷被调研用户的范围,是这个系统的基石。考虑用户对调研问卷内容和占用时长的忍耐性,确保可以实时得到用户的全部或者部分调研信息,使用调研NPS问卷可以保障获取用户阶段性答案。创建调研任务的时候会添加去重频率的选项,所以在调研短信下发前存在批量的用户去重操作。数据去重模块在对比了多种去重方法并参考其去重特点的情况下,选择了依据布隆过滤器原理的去重方法来保证在低误识别率情况下的快速去重和低内存占用。调研发送模块采用多进程多任务设计,提高业务处理性能。同一时段内会存在多种调研任务,分钟级别处理几十万事务数据。在结合缓存、数据库,通过任务管理和进程调度等方面来实现系统的稳健性。在用户去重过程中,本文主要对比了、HASH去重,基于BITMAP去重和基于布隆过滤器原理(Bloom-Filter)去重方法。通过依次对比,采用BITMAP思想来做数据存储减少内存空间的占有量,在通过Bloom-Filter支持对业务的大数据用户信息快速去重。本文将这通过两者相结合来做大数据用户信息去重。在系统设计和开发方面,进程管理模块通过使用任务管理模块构造的多种Redis数据,调度和协调所有进程进行任务处理,实现多进程多任务并行来达到多业务数据处理速度提升。并通过异常处理模块负责任务及进程相关异常的处理及自动修复,对于无法自动修复的问题,进行实时监控及报警。经过实际项目完成和运行,整个系统在千万级用户数据去重情况下运行稳定,调研短信下发业务涉及事务处理量可以达到20W/min的速度,符合预期效果。

面向社交媒体的网络爬虫的研究与优化

这是一篇关于分布式网络爬虫,布隆过滤器,网页去重,Hadoop的论文, 主要内容为随着网络技术的高速发展,社交媒体逐渐深入并影响着人们生活的各个方面,其产生的数据类型呈现数据量大,数据种类多,实时性强,高价值的特点,用户要抓取这些数据并研究需要用到网络爬虫技术。分布式网络爬虫为人们抓取大规模数据提供了技术支撑,Hadoop平台是由Apache领导开发的一个优质的开源大数据处理框架。本文所研究的面向社交媒体的分布式网络爬虫就是基于此框架设计和实现的,主要的工作内容包括以下几个方面:1.设计了一个面向社交媒体的分布式网络爬虫,以新浪微博为数据源,将抓取到的数据存储到HBase数据库之中。对面向社交媒体的爬虫系统进行了总体设计,主要是爬虫系统的概要设计、工作流程设计、功能模块划分,并对系统进行了详细的设计和实现。2.本文研究的主要目的是针对面向社交媒体用户群体多和产生的数据量大的特点,给出面向社交媒体的分布式爬虫系统的优化方案。通过布隆过滤器对抓取到的用户URL(Uniform Resource Locator)进行去重,再利用爬虫对去过重的URL集进行遍历从而实现社交媒体数据的获取。由于布隆过滤器本身存在误判的缺陷,从而改进算法,降低该算法的误判率并在Hadoop平台进行实现,应用到面向社交媒体的网络爬虫系统中。3.在实验室服务器上搭建8个节点的Hadoop集群,并对Hadoop集群进行相关的环境配置,本文设计的爬虫系统是在该机群上实现的。之后把获取到的社交媒体用户的URL在配置好的环境上进行测试,查验改进的布隆过滤器算法的去重效果,并测试面向社交媒体的网络爬虫系统的功能性。实验结果表明,本文改进的布隆过滤器算法的误判率明显降低,并且在分布式网络爬虫系统中网页去重模块拥有良好的去重效果,从而优化分布式网络爬虫系统提升数据抓取效率。