给大家推荐5篇关于并行的计算机专业论文

今天分享的是关于并行的5篇计算机毕业论文范文, 如果你的论文涉及到并行等主题,本文能够帮助到你 IPTV推荐系统的研究与实现 这是一篇关于IPTV,推荐,基于内容的推荐

今天分享的是关于并行的5篇计算机毕业论文范文, 如果你的论文涉及到并行等主题,本文能够帮助到你

IPTV推荐系统的研究与实现

这是一篇关于IPTV,推荐,基于内容的推荐,协同过滤,混合推荐,多类型,分布式,并行的论文, 主要内容为随着我们社会的发展,生活中已经随处可见互联网。普通有线电视,已经渐渐地被IPTV(Internet Protocol Television)所取代。IPTV相对于传统有线电视,其内容丰富性大大提高,与用户交互性也大大提升。但IPTV节目的丰富性使得用户很难找到想看的节目。而推荐系统在IPTV上的应用,使得用户寻找令其感兴趣的节目的过程变得更简单。推荐算法一般来说,可以分为三种,基于内容的推荐算法,协同过滤算法以及混合推荐算法。本文提出了一种混合了基于内容的推荐算法和协同过滤算法的IPTV推荐系统。IPTV节目有很多种节目类型,而用户在每种节目上面的喜好可能有所不同,如果我们在推荐的时候,不去考虑节目类型,准确性就可能会受到影响。考虑到多类型问题,本文基于最近邻算法KNN(K-Nearest Neighbors)提出了一种基于内容的推荐算法:多类型最近邻MKNN(Multi-type K-Nearest Neighbors)算法,并采用了一种分布式和并行实现。相应的,本文基于正规化奇异值分解RSVD(Regularized Singular Value Decomposition)提出了一种协同过滤算法:多类型正规化奇异值分解MRSVD(Multitype Regularized Singular Value Decomposition)。另外,本文在混合基于内容的推荐算法和协同过滤算法时,采用了一种用随机梯度下降法来训练的基于Weighted(加权平均)的自适应Weighted算法。本文的实验是基于省级广播电视公司的实际IPTV数据集,其结果表明,本文的基于内容的推荐算法MKNN相对于KNN,协同过滤算法MRSVD相对于RSVD,混合推荐算法自适应Weighted相对于Weighted,其准确性都有所提高。

互联网多源矢量空间数据自动获取与管理方法研究

这是一篇关于矢量空间数据,网络爬虫,模板映射,NoSQL,并行的论文, 主要内容为开展互联网条件下的多源矢量空间数据获取与管理方法的研究,能够实现对互联网中广泛存在的多源矢量空间数据进行高效的获取、解析与管理,为GIS空间分析和空间数据挖掘提供更为丰富和实时的数据源,为大数据时代的地理信息技术研究提供便利。本文重点研究互联网条件下的矢量空间数据获取与管理技术。针对一般聚焦爬虫数据爬取方式单调、爬取效率低等问题进行优化,提出基于多线程并行和异步I/O模型的方法协同提升Web矢量空间数据获取的效率;针对多源异构的矢量空间数据结构,研究一种基于模板映射的数据解析方式,相比常规Web数据解析中使用的正则表达式解析法在准确性和稳定性方面均有提升;针对Web矢量空间数据结构复杂多变的问题,研究基于MongoDB对矢量空间数据进行对象化存储,有效的降低了空间数据管理的复杂度。本文的主要工作包括:1)提出了一种多策略并行的Web矢量空间数据高效获取方法。基于聚焦爬虫技术,在研究了多种开源爬虫框架的基础上,提出通过多线程和异步I/O两种策略,优化矢量空间数据的获取效率。2)提出基于模板映射的多源矢量空间数据自动解析技术。通过将结构化和半结构化文本数据转化为树状结构对象,基于给定的模板对互联网中的异构矢量空间数据进行解析,相比传统的正则表达式解析法来说,本方法在维持较高的解析准确度的基础上,通过模板映射技术有效提升了解析的稳定性。3)提出一种基于MongoDB数据库的多源矢量空间数据对象化存储方法,可管理由Web爬虫获取到的矢量空间数据。并提出了一系列REST数据管理API,实现矢量空间数据在云环境下的管理。4)基于上述方法,构建NetCrawler爬虫系统,实现了互联网条件下多源异构矢量空间数据的快速获取、解析与管理。并通过测试证实了所述方法的有效性。

基于Bloom Filter算法的URL去重算法研究及其应用

这是一篇关于数据检索,网络爬虫,URL去重,布隆过滤器,并行的论文, 主要内容为随着互联网技术的快速发展,各种各样的网络信息也呈指数级增长,海量而复杂的网络信息给人们提供更多可用数据的同时,有效的信息检索难度也越来越大。在这种情况下,我们就需要一个信息检索工具来进行有效信息的检索,那就是搜索引擎。网络爬虫作为搜索引擎中的核心技术,为用户的信息检索提供了很大便利。本文的主要研究内容就是关于网络爬虫相关技术。网络爬虫系统根据初始种子URL,获取网页中的下层链接并放入待爬取URL列表,逐层进行直至到达系统设置最大层级或者到达最终所需信息所在页面,然后对该页面进行解析,最终获取到页面中用户所需信息。在爬虫获取网页数据过程中,各个层级中获取到的URL链接可能存在大量的重复,比如根据图书分类页爬取某个网站图书的信息时,同一本图书很可能会有多个分类标签,当对不同标签下的图书进行爬取时,就可能出现多次爬取到同一本图书的情况,这就导致了在执行过程中系统需要重复获取和解析相同页面,从而造成了时间以及存储空间的很大浪费。另外我们熟悉的单线程模式的数据处理方式在在进行URL处理时比较耗时,导致系统执行效率较低。针对上述问题,本文从提高爬虫系统检索效率和准确率的角度出发主要做了以下工作:1.对影响爬虫效率的因素进行研究,考虑到爬虫系统中主要的工作量在于获取和解析网页,当URL重复时,多次解析同一个页面就造成了CPU资源的浪费,降低了爬虫系统效率且浪费了系统的存储空间。为了解决这一问题,本文对比多种URL去重策略,然后对更加适合于URL去重的布隆过滤算法(Bloom Filter)进行深入的研究并对其存在的误判率较高的缺点进行改进,提出多特征值Hash拆分映射布隆过滤算法,并从理论和实验两方面论证改进型算法的有效性。2.为了提高爬虫系统运行效率,在使用上述改进型布隆过滤器算法对存在重复的URL链接进行去重的过程中,提出采用并行动态任务分配的策略实现URL消重。该并行方法不同于常见的通过消息队列实现URL互斥读取并进行处理的并行方式。该并行策略是将URL数据集进行分块并为每一个数据块分配一个线程来实现多个数据块的并行去重操作,这样就避免了多线程对同一URL数据集互斥读数时额外的消耗数据读取和消重的等待时间的问题。接着在对数据进行分块后,为每一个数据块增加一个监控线程用来检测数据块中URL剩余量,以便于及时的为已经处理完的数据块调取数据,实现线程间的动态数据量调整,进一步提高并行效率。3.最后针对项目需求,设计并实现了针对某网站图书信息的网络爬虫系统,在获取到图书详情页URL后,将本文提出的改进型布隆过滤器算法和并行动态任务分配策略应用在该系统中来进行URL的去重操作。通过实验证实,本文提出的改进型布隆过滤器算法在达到了较好的URL去重效果的同时,也降低了URL去重的误判率,提高了数据去重中的误判率。本文提出的URL消重算法在执行过程中采用并行动态任务调整的处理方法,有效提高了CPU的利用率,加快了URL消重速度,同时也提高了系统执行效率。

分布式网络爬虫技术的研究与实现

这是一篇关于网络爬虫,并行,搜索引擎的论文, 主要内容为随着Web信息的急速膨胀,各项和Web有关的服务也都逐渐增多,Web信息在很多方面得到了广泛的应用,人们对于Web信息的要求也越来越高,使得专门负责Web信息采集的网络爬虫技术面临了一个巨大的挑战。国内外的一些大公司对这一问题已经有了很成熟的解决方案,并已投入使用,但是这些大型搜索引擎只能给大众用户提供一种普通的不可制定的搜索服务,它不可能考虑到所有用户的各式各样的需求,而单机的网络爬虫在很多情况下又难当重任,中型规模的网络爬虫以其灵活的可定制性和单机网络爬虫无法比拟的信息采集速度和规模,满足了人们日益增长的对Web信息的面向用户的需求,针对这一情况,本文展开了对国内外的网络爬虫技术的研究。 网络爬虫研究中最重要的是设计构架和关键技术的解决。在吸取了他人技术和经验的基础上,本文设计描述了一个分布式网络爬虫的结构设计,其中包括硬件的构架,和软件的模块划分。硬件部分由一台PC机做控制节点,N台PC机作爬行节点,在局域网中连接。软件部分又分为控制节点软件设计和爬行节点软件设计。 然后本文分析了分布式网络爬虫的关节技术的解决方法,比如分布式的各个结点如何协同工作,任务如何分配,如何保持重要网页的时新性等等,进而提出了一些实用的算法,解决了这些分布式网络爬虫的关键技术,实现了一个具备健壮性,可扩展性,可配置性的分布式网络爬虫系统,并就该分布式网络爬虫系统进行了仔细的剖析。最后在该网络爬虫上作了一些测试,包括了普通爬行测试和该网络爬虫的一个应用,网站爬行的测试。

并行数字图书馆系统中人机交互系统的设计与实现

这是一篇关于数字图书馆,人机交互,并行的论文, 主要内容为数字图书馆是一种基于计算机网络,功能强大的管理分布式、海量的数字化多媒体资源的信息存储和检索系统。数字图书馆所面向的领域远远超出了传统图书馆的范围,国内外已经对数字图书馆开展了许多研究工作,并推出了自己的数字图书馆产品,如IBM数字图书馆、中国数字图书馆、超星数字图书馆等等。但是,目前还没有一个可以按照用户需求建立其自己的数字图书馆的产品,因此我们开发研制了一种基于机群并行计算环境的并行数字图书馆系统,它可以帮助用户根据自己的数据特点轻松地建立自己的数字图书馆。 本文在借鉴了现有数字图书馆人机交互系统特点的基础上提出了一种新的基于计算机机群并行环境人机交互子系统的设计方法,该方法克服了其他数字图书馆人机交互系统的缺陷,提供给用户标准而友好的交互界面,使用户不需特殊训练就能掌握各种文本的检索操作,快速准确地获取信息。此外,本文还提出了并行数字图书馆系统中文本的保护策略,很好地保护了作者的权益。

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码码头 ,原文地址:https://m.bishedaima.com/lunwen/51742.html

相关推荐

发表回复

登录后才能评论