7篇关于PageRank的计算机毕业论文

今天分享的是关于PageRank的7篇计算机毕业论文范文, 如果你的论文涉及到PageRank等主题,本文能够帮助到你

基于Hadoop的PageRank算法在网络课程教学知识点分析上的应用

这是一篇关于网络课程,Hadoop,PageRank,知识点打分的论文, 主要内容为随着信息技术的不断进步,网络课程越来越受到人们的青睐。因其具有灵活性、开放性及普遍性等特点,一经问世便吸引了众多学习者,可以说网络课程的出现打破了传统教学的模式。但随着越来越多的人投入到网络课程的学习中,其宽进严出、结课率低、教学指导不足的问题也逐渐显现出来。究其背后原因,往往是因为网络课程无法做到个性化、差异化教学,无法激发学习者学习的主观能动性,从而导致了学习效果不理想的问题。纵观现有网络教学平台,目前对于知识点的重要程度往往来自于专家学者的教学经验,通过简单的知识图谱构建,以目录结构、思维导图等方式呈现给学习者。但这样基于经验而生成的一成不变的知识点排序,已无法满足网络课程学习者的需求,学习者无法根据自身情况,在海量的知识中迅速掌握当前学习内容的重要程度,从而降低了学习者的学习效率,减少了学习兴趣。为了最大限度上激发学习者的主观能性,减少学习者与网站间的交互障碍,降低交互成本,将离散的知识点进行科学有效的、个性化的排序,本文提出了“知识点打分”这个概念,引用了PageRank算法对这一概念的实现进行了探究。文章首先论述了当前我国网络教学课程、Hadoop平台、PageRank算法的应用现状,分析了当前环境下网络教学现状与网络教学所采用的技术中存在的问题。结合当前问题,以及网络课程学习用户对知识需求的特点,提出了“知识点打分”这一概念,探讨了基于Hadoop平台的PageRank算法在网络课程教学知识点打分上的应用。通过设计相应研究方法与研究内容,充分论证了网络教学知识点分析的理论支撑及技术支撑。分析了Hadoop平台和PageRank算法在网络课程教学知识点打分的可行性,并通过模拟实验进行实现。同时提出了将知识点打分算法运用于自动生成网络教学知识图谱的构想,明确了下一步的研究方向。

基于影响力最大化问题的PPV概率模型研究与实现

这是一篇关于社交网络,影响力最大化问题,PageRank,推荐系统的论文, 主要内容为基于社交网络的服务在智能设备普及下飞速发展,常见的移动终端增值业务包括商品推荐(如淘宝)、地点推荐(如大众点评)、服务推荐(如网易云音乐)等。以往用户倾向于接受身边朋友们“口口相传”的线下推荐,如今基于社交网络关系的线上“病毒营销”(即影响力最大化问题)更受广大商铺青睐——它不仅考虑了用户的社交关系、缓解了推荐系统中的稀疏性等问题,而且能从用户各方面的行为抽取用户特征,使推荐结果更符合用户偏好。因此,基于社交网络的影响力最大化问题具有重要的理论研究和应用指导价值。本研究输入社交关系及用户行为,输出影响力最大的K个种子节点。在抽取一张有效且有理论依据的影响力图的基础上,估算用户之间的影响概率,设计并实现了一个基于PageRank优化算法的PPV概率迭代模型;最后,以实际的数据集对模型进行测试验证,MAE、RMSE等评测指标优于其他传统算法。本研究主要成果如下:1.社交网络及用户行为场景分析现有研究大都基于社交网络自身的拓扑结构分析,而忽略了节点本身的属性对影响力的重要性。本研究通过场景分析及相关概念定义,以社交网络拓扑结构、行为为基础,抽取识别出用户群组,构建可供分析、有理论依据的影响力图。该图结合了网络拓扑结构本身和用户历史行为抽取出的群组特征,解决了影响力图理论依据的同时,加强了不常使用社交网络或新加入社交网络用户(即孤立节点)的体验。2.影响概率学习基于PageRank优化算法构建的概率模型针对孤立节点作特殊处理,并以蒙特卡洛采样优化计算时间代价。为了解决现有研究中直接赋值、历史行为抽取等传统方法理论依据缺乏、抽取结果单一等不足,本研究以影响概率模型的核心迭代式解释了影响力图节点状态变化的原因:拓扑结构方面,本研究分析了拓扑结构上每个状态之间变化情况及变化概率;节点本身方面,本研究抽取用户历史行为获取节点自身特征,以PPV向量表示。3.概率模型展示系统及实验验证为了验证本模型的准确性和有效性,本研究最后基于实际的一个EPC商铺推荐项目,选取了同样基于地理信息的社交数据集Gowalla,验证本模型效果。本研究最后以商铺地点营销为应用场景,设计实现了一个影响力最大化问题种子节点获取的CS架构原型系统。当厂商发起推荐请求后,在线计算根据线下识别出的用户群组关系,将推荐的用户种子节点反馈给厂商客户端,这一部分的计算相对消耗时间空间较少,满足用户请求即返回的实时性。同时,在试验中以本研究概率获取方式与传统的影响力获取方法进行了评分、usage等评估指标(如MAE、RMSE)对比。借鉴蒙特卡洛采样,本研究较传统的循环迭代过程减少了采样的数量,也解决了该问题本身不易取样的难点。从实验结果看,PPV模型的影响概率学习效率优于传统算法。

基于Hadoop的分布式网络爬虫的设计与研究

这是一篇关于Hadoop,分布式,爬虫,PageRank,Simhash的论文, 主要内容为对于网络爬虫进行了一种基于Hadoop的分布式网络爬虫的设计与研究,随着互联网时代的到来,互联网技术迅速得到发展,网络上的网络资源也在快速增长。面对互联网上的各式各样的资源,想要能够快速而又准确的找出需要的资源变得不再那么简单。通过搜索引擎便能完成对信息的检索,而搜索引擎与网络爬虫密不可分,只有通过网络爬虫在互联网上爬取到更多的信息资源,搜索引擎才能完成相应的操作。因此,网络爬虫的设计十分重要。如今,已经有越来越多的公司和组织开始致力于设计高效的爬虫系统来对互联网上数以十亿的网页资源进行爬取。由于互联网上庞大的数据资源,传统单机的网络爬虫的抓取和解析效率已经远远达不到现如今的需求。因此,采用基于Hadoop集群来开发,并对网络爬虫在DNS解析、URL抓取、文件解析、URL获取、URL处理以及判断模块进行设计和优化。对于DNS解析模块,通过在上一轮抓取任务开始时,在节点上创建一个解析下一轮待抓取URL的线程来对域名进行提前解析,并将解析的结果存入DNS缓存区中。通过这种预处理过程和缓存区的设计,使得爬虫系统在下一轮抓取任务开始时,不需要等待解析域名过程的完成,而直接去DNS缓存区中获取对应的IP地址映射。这可以有效的增加爬虫系统的效率。在抓取模块中,采用了PageRank算法对URL的重要性进行判断,对待抓取的URL按照PageRank值的大小进行抓取。通过对互联网中网页各种出链形式的分析,采用迭代的思想得到每个网页初始的PageRank值。再依据互联网中出链的指向情况来相应的增加网页的PageRank值。由于网页PageRank值的大小从侧面反映了互联网中出链指向该网页的数量,也决定该网页的重要程度,使得抓取顺序即为网页重要性程度的顺序。这大大降低了垃圾网站的无关信息出现在搜索结果中的机率。文件解析模块中,通过实现Apache Tika对外提供的外部接口,并调用其中的工具来完成对于不同文件的解析和处理。将解析出来的信息中的URL资源信息进行提取,并匹配正则表达式的格式,来判断URL是否合法。在处理模块中,针对网络中网页相似度较高甚至重复的情况,通过采用指纹生成算法中的Simhash算法,对网页文本信息进行分词操作,并对分词设定权重级别。通过每个分词对应的hash值和权重级别,进行加权计算并得到相应的加权值。再合并分词的加权值就可将文本信息转换成长度一定的序列串。通过降维的方式,可以将文本信息相似度的对比转换成比较相应二进制序列串的对比。通过统计二进制序列串中对应位置上数字不同的个数,得到海明距离。爬虫系统会将海明距离小于3的网页判定为重复网页,不进行重复抓取而直接舍弃。URL获取模块通过MapReduce算法的计算获取URL信息,并将已抓取的URL状态更改为已抓取状态。将抓取到的URL资源传递给判断模块,通过判断URL种子库中是否已经包含了该URL资源,来决定对URL资源进行不同的处理。如果包含该资源,爬虫系统会直接舍弃该资源;如果不包含,则会将该资源加入到URL种子库的末尾。通过在URL种子库中加入不同数量的URL来测试爬虫的功能,结果显示URL种子库中URL数量不同时,都能够完成从URL种子库中的URL为起点抓取到互联网中的URL资源,并且在抓取过程严格按照PageRank值的大小顺序进行抓取。在URL种子库中放入两条重复的URL时,通过Simhash算法的计算后海明距离小于3,来判定两个网页为重复网页,只进行了一次抓取动作。又在不同节点数的集群下完成抓取过程时,通过对抓取的网页数量和抓取时间的统计,计算出了不同节点数的集群下的抓取速率,得出节点数越多速率的波动越小,且最后抓取速率会基本稳定在某个固定值附近作上下波动的结论。通过速率大小的对比,得出节点数越多网络爬虫抓取的速率越大,但随着节点数的不断增加,抓取速率的增长程度会不断变小。

基于分布式的搜索引擎技术研究与设计

这是一篇关于分布式计算,搜索引擎,爬行,索引,检索,Hadoop,PageRank的论文, 主要内容为随着计算机技术、互联网技术的快速发展,网络上的信息几乎是呈现爆炸式增长,这对传统的搜索引擎技术带来不小的挑战。面对海量数据的处理和存储,人们对搜索引擎的需求,不仅仅局限于能够尽可能地获取准确的检索结果,还需其具有更好的时效性,更高的可扩展性,更低的故障率。大数据时代,对数据的处理能力要求越来越高,随着分布式计算技术的不断发展,以及云计算的不断普及,基于分布式的搜索引擎无疑会成为未来发展的趋势。本论文针对基于分布式的搜索引擎,论述了国内外对搜索引擎的研究现状以及未来发展的趋势,分析了搜索引擎的工作原理,详细介绍了分布式搜索引擎涉及的相关理论技术。对主要的几种分布式搜索引擎方案进行对比分析,研究改进措施,提出了基于Hadoop的分布式搜索引擎技术方案。根据搜索引擎本身特点,将搜索引擎分为爬行、索引、检索三个子模块,对系统的每个子模块进行详细设计并实现,将Hadoop的Map/Reduce模型和分布式文件系统HDFS应用在整个搜索引擎中。在原有PageRank算法基础,进行优化,添加用户访问反馈影响因子,提出一种基于用户访问反馈的PageRank算法,来对网页进行评分。利用轻量级Web应用框架SpringMVC对检索子模块进行构建,视图层采用新一代Java模板引擎jetbrick-template替代Jsp,提高了页面加载速度,提升搜索引擎的时效性。最后,对实验环境进行介绍和部署,搭建分布式搜索引擎系统,对实现的搜索引擎系统从功能、可靠性、可扩展性几个方面分别进行了测试。对实验结果进行对比和分析,论证了基于Hadoop的分布式搜索引擎技术方案的可行性。

基于图表示学习的节点聚合方式优化

这是一篇关于图表示学习,图神经网络,PageRank,节点分类,马尔可夫扩散核的论文, 主要内容为图结构数据在现实生活中广泛存在,能够广泛的构建实体与实体之间的联系,现实生活中很多网络,如社交网络,引文网络,交通网络,推荐系统,生物化学中蛋白质的构建等,都可以用图结构数据所表示。节点聚合方式是指将邻居节点的信息汇总到中心节点,生成新的节点向量表示的过程,优化节点聚合方式可以提高图表示学习的性能,是图表示学习领域最重要的问题之一。随着深度学习在各领域获得了成功,将深度学习迁移到图表示学习上已经成为当前研究的一个热点。在当前的图表示学习中,常用的节点聚合方式为图神经网络,具体为:图卷积网络(GCN)、简化图卷积(SGC),图注意力网络(GAT)、PPNP等。然而,这些方法仍然存在一些问题,现有图神经网络在处理图结构数据中不够强大,无法充分挖掘图结构数据中潜在信息和潜在联系。在传播过程中,邻域大小往往难以扩展,且节点的传播只考虑了最近的邻居节点,在进行多次卷积操作之后,传统图神经网络有着过平滑,泛化性能差等问题。为了解决这些问题,本文进行了以下工作:(1)针对图神经网络无法充分提取出节点特征和图结构中的相关信息,存在过平滑等问题,本文提出一种基于Page Rank的图混合随机网络方法(PMRGNN)。为了能够有效的聚合多阶邻域信息,提出一个带有Page Rank的随机传播策略的图数据随机增强模块,其次,设计了混合网络结构,通过多层感知机(MLP)和卷积层相结合,使得节点和其邻居的信息得到有效利用。此外设计了特征提取器损失和图正则化项,通过最小化两个特征提取器之间的距离,使两个特征提取器提取出的信息保持一致性,同时加入图正则化项,有效利用节点与其邻居信息,提高了模型的泛化性能。(2)针对传统图神经网络算法存在着过平滑,泛化性能差,鲁棒性不高的特点,本文提出了基于马尔可夫扩散核的自适应图随机神经网络(ARM-net)。首先,使用伯努利分布对特征矩阵进行随机数据增强,使节点对特定邻域不敏感,从而提高模型的鲁棒性。其次,引入可学习参数,基于马尔可夫扩散核定义自适应传播过程,在传播过程中,将传播和特征转换分离,先进行传播,再进行特征转换。通过解耦传播和特征转换,有效拓展了节点的邻域,使得节点和其邻居的信息得到有效利用,平衡了来自每个节点的局部和全局邻域信息,也降低了过平滑的风险。最后本文设计了图正则化项,一定程度上降低了过拟合,增强了模型的泛化性能。为了验证论文中模型的有效性,在Cora,Citeseer,Pubmed三个数据集上分别进行了实验,并对实验结果进行综合性分析,在不同的评价指标下,本文所提出的方法都有较好的效果。

高校毕业生就业推荐系统的设计与开发

这是一篇关于推荐系统,SimRank,PageRank,聚类分析,K-Means的论文, 主要内容为近年,随着高校毕业生数量持续增长和全球金融海啸给我国经济带来的不利影响,高校毕业生的就业形势日趋严峻。而当前我国各所高校的毕业生就业工作尚不足以为每一名毕业生提供准确有效的就业指导和就业推荐,各高校的就业网更多是仅提供招聘信息发布功能,并不具备信息推荐功能。“高校毕业生就业推荐系统”的设计开发则刚好填补了这份空白。通过“高校毕业生就业推荐系统”,毕业生可以根据自己的个体情况,得到一份科学、可靠的就业推荐,并以此作为择业依据。针对现有网络求职平台在就业推荐过程中存在的缺陷,同时结合高校毕业生求职和企业校园招聘的特点,我们设计了“高校毕业生就业推荐系统”。在系统的设计过程中,我们通过比较应届和往届毕业生基本特征,分别采用基于经验公式和基于SimRank算法两种办法来获得两名学生之间的相似度。随后,根据学生之间的相似度,通过K-Means算法对学生进行聚类分析,并通过进一步分析得到应届毕业生与企业间的相似度。最后,本文将学生与企业的相似度同基于PageRank算法获得的各个企业的“求职指数”结合,从而获得企业的推荐排序权值,并根据这个权值将排序靠前的企业推荐给对应的应届毕业生。尽管本文采用了两种不同的学生相似度计算方法,但通过本文第五章的测试对比实验,在最终系统中,我们选择基于经验公式计算学生间相似度的方法来完成学生间相似度计算。根据测试实验的结果,我们认为：本系统不仅功能上符合设计初衷,能够有效的为毕业生提供就业推荐服务,推荐结果科学合理；同时还能够帮助缺乏求职目标的学生制定求职目标,提升学生的求职成功率,在一定程度上降低学生求职成本。对比之前就业网单纯的信息发布功能,本系统提供的就业推荐功能具有较高的实际应用价值。

基于Nutch的漏洞垂直搜索引擎

这是一篇关于垂直搜索引擎,漏洞,PageRank,Nutch,插件的论文, 主要内容为随着计算机及互联网技术的飞速发展,互联网已成为国家重要的信息基础设施。与此同时,互联网作为一个运行系统及社会公共环境,其所面对的和隐藏在其中的安全威胁也越来越复杂、越来越严重。安全漏洞是构成网络安全威胁的重要原因,网络入侵、大规模蠕虫传播、系统拒绝服务等问题多是由安全漏洞所引发。为了降低安全漏洞带来的风险,增加对漏洞威胁的预警能力,提高对安全漏洞进行管理及控制的能力,很多国家安全机构和网络安全组织都建立了漏洞库。但是各个漏洞库收集的漏洞并不全面,对漏洞的缺陷描述也不尽相同。本文针对目前漏洞库信息庞大、漏洞信息不全面、漏洞描述欠缺等问题,提出可以整合各个漏洞库的漏洞垂直搜索引擎系统。为了实现漏洞垂直搜索引擎系统,本文设计了系统的整体框架流程,并围绕整体框架的各个模块分别进行了研究,如爬行模块,索引模块,检索模块、中文分词模块等。在爬行模块采用站长提交方式建立初始URL集,并采用广度优先的遍历方式访问网页信息,以提高搜索引擎的爬行效率。由于本文所设计的漏洞搜索引擎对排序结果有比较高的要求,所以采用向量模型和链接分析相结合的方法,即增加漏洞信息field和设置文档boost,使漏洞搜索引擎的排序结果达到公平合理的效果。在中文分词模块,使用的是IKCAnaylzer中文分析器,这是因为它是采用基于字典分词技术,针对中文文本实现了正反向全切分和正反向最大匹配。用户界面使用JSP技术完成动态网页生成。本搜索引擎为了方便用户使用,也提供了网页快照功能。本文实现的主要研究成果为：(1)根据PageRank算法在垂直搜索引擎中的缺陷和垂直搜索引擎专注、具体、深入的特点,结合漏洞标题和漏洞描述提供大量漏洞信息的特点,提出对搜索结果进行合理、公平排序的算法。(2)深入研究垂直搜索引擎框架及Nutch的工作流程,使用站长提交方式建立抓取系统的URL集,使用Nutch插件机制实现文本分析、索引系统和搜索系统,从而实现基于Nutch的漏洞垂直搜索引擎系统。(3)相对于Google、Baidu等通用搜索引擎而言,漏洞垂直搜索引擎虽然在检索结果数量上有些逊色,但在结果的精确度和相关性排序上,垂直搜索引擎有明显的优势,检索结果数量的减少在很大程度上也缩减了检索时间。

本文内容包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主题。发布者：毕设海岸，原文地址：https://m.bishedaima.com/lunwen/48347.html