云数据采集系统中云爬虫子系统的设计与实现
这是一篇关于云爬虫,一致性哈希,负载均衡,云计算的论文, 主要内容为随着互联网和数据挖掘技术的高速发展,因特网上海量的网页数据价值愈发凸显。现有的网络爬虫技术对于网页数据采集问题存在着不易使用、不易定制等不足。本文把云计算技术和网络爬虫技术相结合,基于软件即服务(SaaS)的服务模式,设计和实现了云数据采集系统中的云爬虫子系统。不同的用户可以根据自身的需求在云爬虫子系统提供的独立的爬虫集群服务上便捷地执行数据采集任务。为了实现分布式爬虫与SaaS模式有机结合,本文主要研究了云爬虫子系统中的两个关键问题:爬虫节点管理和链接抓取任务调度。在爬虫节点管理方面,本文提出了一种使用etcd辅助的爬虫节点管理方案,该方案通过规定子系统中所有爬虫节点一系列共同的行为,使得各个集群的爬虫节点可以混合部署相互替换。该方案支持爬虫节点配置运行时更新,支持对于各个爬虫集群在运行时动态增减节点,以及集群故障节点及时感知,保证爬虫集群服务的可靠性。在链接抓取任务调度方面,本文提出了一种基于jump consistent hash算法改进的调度方案OJCH。OJCH使用jump consistent hash算法计算节点,得到与jump consistent hash算法类似的性能表现,并利用故障节点再散列的方法克服了jump consistent hash无法处理任意节点发生故障的缺点,通过了实验的验证。此外本文还提出了一个支持周期性链接抓取任务的去重方案。此后,本文给出了云爬虫子系统的整体设计方案和各个功能模块的详细设计和实现,包括集群控制模块、网站服务模块、任务队列模块、任务调度模块、任务处理模块和节点管理模块。然后对实现的云爬虫子系统根据相关的测试用例进行测试,验证了云爬虫子系统的各项功能。最后对全文进行总结。
基于分布式架构资源动态分配系统的设计与实现
这是一篇关于负载均衡,动态资源分配,主从分布式,一致性哈希的论文, 主要内容为近年来,随着互联网的兴起,互联网公司业务形式与信息数据呈现爆炸性增长的趋势。然而运维系统的落后与资源管理方式效率底下的现状,不仅造成资源的浪费,而且给公司带来了沉重的维护压力,这会成为公司未来业务线扩展的一个瓶颈。因此如何将部分线下操作转换为线上进行,高效的信息管理与资源分配成为公司发展过程中必须要面临的问题。为了解决该问题,需要设计一套高效的资源动态分配系统,提高资源利用率,降低运维成本。本文以实习所在公司实际情况作为出发点,通过对旧系统的分析与系统用户的调研,梳理了与资源相关的整个业务流程,针对当前存在的主要问题提出了资源分配算法的优化策略,并在此基础上设计开发了资源动态分配系统。系统通过可视化页面对外提供服务,接收资源申请后进行资源分配,整个过流程在线上完成后并可追踪监控。在资源分配算法中,系统通过Actor通讯模型,动态获取资源池中资源的性能指标,并以此作为资源分配的依据,结合基于虚拟节点的一致性哈希算法将资源按照“能者多劳”的思想进行分配,以提高资源的整体利用率。结合SSH框架,利用模块化的编程思想,系统提供了诸多资源分配系统的辅助模块,如报警管理、服务台等。在具体的模块设计上,系统采用分层结构,将模块纵向分割为控制层、服务层、数据控制层、数据层,进一步优化系统结构,提高了系统的维护性和高效性。在资源池平台上,本文模拟多个业务线申请来对资源分配的效率进行验证。并通过与旧系统所采用的加权轮询法从资源平均负载率这一标准上进行对比,其优化后算法结果明显优于加权轮询法,在资源分配分布上达到了“能者多劳”的目的,从而证实了资源分配算法的有效性。此外根据系统实际情况设计了测试用例,进行了功能性测试和非功能性测试,证明系统方案的可行性、可维护性和高效性,实现了需求中对系统提出的资源管理、报警管理、服务管理、性能优化等功能性要求和易用、可靠、安全等要求。本文的主要结构为:首先介绍了项目的背景、问题定义以及目标等基本信息,其次通过对技术的分析,选择出相应的分布式技术框架和通讯框架,然后对现有分配算法的分配策略进行优化,设计实现并通过实验进行验证,确保其可行性和优化效果,最后详细介绍了系统整体框架的设计和逻辑结构的设计,给出了系统各个模块的设计与实现过程。
云数据采集系统中云爬虫子系统的设计与实现
这是一篇关于云爬虫,一致性哈希,负载均衡,云计算的论文, 主要内容为随着互联网和数据挖掘技术的高速发展,因特网上海量的网页数据价值愈发凸显。现有的网络爬虫技术对于网页数据采集问题存在着不易使用、不易定制等不足。本文把云计算技术和网络爬虫技术相结合,基于软件即服务(SaaS)的服务模式,设计和实现了云数据采集系统中的云爬虫子系统。不同的用户可以根据自身的需求在云爬虫子系统提供的独立的爬虫集群服务上便捷地执行数据采集任务。为了实现分布式爬虫与SaaS模式有机结合,本文主要研究了云爬虫子系统中的两个关键问题:爬虫节点管理和链接抓取任务调度。在爬虫节点管理方面,本文提出了一种使用etcd辅助的爬虫节点管理方案,该方案通过规定子系统中所有爬虫节点一系列共同的行为,使得各个集群的爬虫节点可以混合部署相互替换。该方案支持爬虫节点配置运行时更新,支持对于各个爬虫集群在运行时动态增减节点,以及集群故障节点及时感知,保证爬虫集群服务的可靠性。在链接抓取任务调度方面,本文提出了一种基于jump consistent hash算法改进的调度方案OJCH。OJCH使用jump consistent hash算法计算节点,得到与jump consistent hash算法类似的性能表现,并利用故障节点再散列的方法克服了jump consistent hash无法处理任意节点发生故障的缺点,通过了实验的验证。此外本文还提出了一个支持周期性链接抓取任务的去重方案。此后,本文给出了云爬虫子系统的整体设计方案和各个功能模块的详细设计和实现,包括集群控制模块、网站服务模块、任务队列模块、任务调度模块、任务处理模块和节点管理模块。然后对实现的云爬虫子系统根据相关的测试用例进行测试,验证了云爬虫子系统的各项功能。最后对全文进行总结。
基于Raft协议的分布式存储系统的设计与实现
这是一篇关于分布式存储,分布式一致性算法,Paxos,Raft,一致性哈希的论文, 主要内容为移动互联网时代的到来让互联网技术得到了快速发展,出现了以大数据、云计算等相关技术为代表的大规模应用,这些应用对数据存储的量级、效率以及安全等提出了更高的要求。与传统的中心化服务器存储的方式相比,分布式存储在存储效率、访问速度、安全性以及存储量级等方面都具有显著的优势,但是会引入复杂的数据一致性等相关问题。Paxos和Raft是在分布式领域解决数据一致性问题应用最广泛的两个算法。Raft在增强可理解性的同时,在性能、可靠性、可用性等方面也不输于Paxos。由于Raft强领导的特性,在分布式存储系统中节点数量增多时会为领导者节点带来巨大的日志分发开销,领导者节点需要更多的时间来将日志分发到集群中的其它节点来对日志项进行提交,极大地影响了系统的性能,从而限制分布式存储系统的水平扩展。本文为解决Raft在分布式存储系统中水平扩展的限制,提出了一个主要由基于Raft算法构建的一致性哈希集群以及基于Raft算法构建的存储集群组成的支持高并发、海量存储、高可靠的Double-Raft分布式存储方案。本文主要工作内容如下:首先,针对Raft算法在上述背景下水平扩展的限制,本文提出了Double-Raft分布式存储方案,方案中的一致性哈希集群会对每个存储集群中管理的文件进行划分,存储集群内部维护自己所管理的文件信息,存储集群之间相互独立,在一致性哈希集群中新增存储集群并完成相关数据的迁移即可实现系统的水平扩展。其次,在Raft算法领导者进行日志分发过程中,本文提出了一种基于动态优先级分配的日志分发机制,该机制让领导者根据系统中跟随者节点日志与自己日志的同步程度来决定日志分发到不同跟随者节点的先后顺序,从而更快地将日志项复制到集群一半以上节点中,加快日志项的提交速度并提高系统写请求的吞吐量。最后,在Raft算法领导者进行日志分发过程中,本文提出了一种基于窗口流水线的日志分发委托机制,该机制让领导者节点指派日志同步程度较高的跟随者节点对日志同步程度较低的跟随者节点进行日志分发,将领导者部分日志分发的压力转移到跟随者,缩短了系统中节点日志趋向一致的时间。
基于分布式架构资源动态分配系统的设计与实现
这是一篇关于负载均衡,动态资源分配,主从分布式,一致性哈希的论文, 主要内容为近年来,随着互联网的兴起,互联网公司业务形式与信息数据呈现爆炸性增长的趋势。然而运维系统的落后与资源管理方式效率底下的现状,不仅造成资源的浪费,而且给公司带来了沉重的维护压力,这会成为公司未来业务线扩展的一个瓶颈。因此如何将部分线下操作转换为线上进行,高效的信息管理与资源分配成为公司发展过程中必须要面临的问题。为了解决该问题,需要设计一套高效的资源动态分配系统,提高资源利用率,降低运维成本。本文以实习所在公司实际情况作为出发点,通过对旧系统的分析与系统用户的调研,梳理了与资源相关的整个业务流程,针对当前存在的主要问题提出了资源分配算法的优化策略,并在此基础上设计开发了资源动态分配系统。系统通过可视化页面对外提供服务,接收资源申请后进行资源分配,整个过流程在线上完成后并可追踪监控。在资源分配算法中,系统通过Actor通讯模型,动态获取资源池中资源的性能指标,并以此作为资源分配的依据,结合基于虚拟节点的一致性哈希算法将资源按照“能者多劳”的思想进行分配,以提高资源的整体利用率。结合SSH框架,利用模块化的编程思想,系统提供了诸多资源分配系统的辅助模块,如报警管理、服务台等。在具体的模块设计上,系统采用分层结构,将模块纵向分割为控制层、服务层、数据控制层、数据层,进一步优化系统结构,提高了系统的维护性和高效性。在资源池平台上,本文模拟多个业务线申请来对资源分配的效率进行验证。并通过与旧系统所采用的加权轮询法从资源平均负载率这一标准上进行对比,其优化后算法结果明显优于加权轮询法,在资源分配分布上达到了“能者多劳”的目的,从而证实了资源分配算法的有效性。此外根据系统实际情况设计了测试用例,进行了功能性测试和非功能性测试,证明系统方案的可行性、可维护性和高效性,实现了需求中对系统提出的资源管理、报警管理、服务管理、性能优化等功能性要求和易用、可靠、安全等要求。本文的主要结构为:首先介绍了项目的背景、问题定义以及目标等基本信息,其次通过对技术的分析,选择出相应的分布式技术框架和通讯框架,然后对现有分配算法的分配策略进行优化,设计实现并通过实验进行验证,确保其可行性和优化效果,最后详细介绍了系统整体框架的设计和逻辑结构的设计,给出了系统各个模块的设计与实现过程。
基于区块链的SWIM共享数据安全认证技术研究
这是一篇关于广域信息管理系统,安全防护,区块链,跨域认证,一致性哈希,负载均衡的论文, 主要内容为广域信息管理系统(System Wide Information Management,SWIM)作为航空信息共享平台,采用面向服务的结构实现空中交通管理(Air Traffic Management,ATM)业务数据的传输和共享。为了保护SWIM共享数据的安全和隐私,本文研究了一种基于区块链的SWIM共享数据跨域认证方法。主要研究内容包括:第一,从功能角度介绍了SWIM系统的概念架构,并逐层研究了SWIM系统面临的主要安全隐患,同时有针对性地设计了安全防护框架,并针对框架中薄弱的部分进行了安全需求分析。第二,为满足SWIM用户高效且安全的访问SWIM中不同认证域的服务,提出了一种在联盟链上基于一致性哈希算法的SWIM跨域认证方案。方案使用带有虚拟节点的一致性哈希结合联盟链架构的认证中心群同步认证域间用户的认证映射关系,并根据SWIM提供的飞行类、航空类和气象类服务分别映射虚拟认证节点来分割一致性哈希环,同时通过用户认证请求的动态变化而增删虚拟服务认证节点,实现不同服务跨域认证的动态负载均衡。本文提出的方法在Intelli J IDEA和超级账本Hyperledger Fabric 1.0环境下进行测试和验证。实验结果表明,采用区块链技术的跨域认证方法能够较好的解决传统跨域认证的单点崩溃、扩展困难以及认证中心工作量分配不均的问题,实现了分布式的安全认证,减少了身份信息的冗余认证操作,提高了认证信息存储的安全性,以较低的通信代价和系统开销实现SWIM用户跨域认证功能,同时也体现了区块链的安全、分布式和可审计等优点。
云数据采集系统中云爬虫子系统的设计与实现
这是一篇关于云爬虫,一致性哈希,负载均衡,云计算的论文, 主要内容为随着互联网和数据挖掘技术的高速发展,因特网上海量的网页数据价值愈发凸显。现有的网络爬虫技术对于网页数据采集问题存在着不易使用、不易定制等不足。本文把云计算技术和网络爬虫技术相结合,基于软件即服务(SaaS)的服务模式,设计和实现了云数据采集系统中的云爬虫子系统。不同的用户可以根据自身的需求在云爬虫子系统提供的独立的爬虫集群服务上便捷地执行数据采集任务。为了实现分布式爬虫与SaaS模式有机结合,本文主要研究了云爬虫子系统中的两个关键问题:爬虫节点管理和链接抓取任务调度。在爬虫节点管理方面,本文提出了一种使用etcd辅助的爬虫节点管理方案,该方案通过规定子系统中所有爬虫节点一系列共同的行为,使得各个集群的爬虫节点可以混合部署相互替换。该方案支持爬虫节点配置运行时更新,支持对于各个爬虫集群在运行时动态增减节点,以及集群故障节点及时感知,保证爬虫集群服务的可靠性。在链接抓取任务调度方面,本文提出了一种基于jump consistent hash算法改进的调度方案OJCH。OJCH使用jump consistent hash算法计算节点,得到与jump consistent hash算法类似的性能表现,并利用故障节点再散列的方法克服了jump consistent hash无法处理任意节点发生故障的缺点,通过了实验的验证。此外本文还提出了一个支持周期性链接抓取任务的去重方案。此后,本文给出了云爬虫子系统的整体设计方案和各个功能模块的详细设计和实现,包括集群控制模块、网站服务模块、任务队列模块、任务调度模块、任务处理模块和节点管理模块。然后对实现的云爬虫子系统根据相关的测试用例进行测试,验证了云爬虫子系统的各项功能。最后对全文进行总结。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设助手 ,原文地址:https://m.bishedaima.com/lunwen/53029.html