基于改进PageRank算法的引文推荐系统研究
这是一篇关于引文推荐,学术授信评价,引文网络,PageRank算法,LSI模型,Dh指数的论文, 主要内容为随着各种文献资源数量的迅猛增长,学者们开展文献调研工作的难度也日益增大。研究人员需要耗费大量时间与精力去研判文献的相关性及价值,科研效率也随之受到影响。在学术信息过载的背景下,引文推荐研究应运而生。引文推荐系统可以对用户输入的某些主题词或上下文段落,有针对性地为其推荐相关研究成果。目前,学术界致力于结合各种理论和技术对引文推荐方法进行创新,以求提供更精准的引文推荐列表,但鲜有从借助学术影响力对引文推荐列表排序优化的研究。此外,现有的引文推荐系统或模型研究,其推荐依据多为文献的元数据信息,可能导致因元数据信息涵盖不全导致的遗漏现象。针对以上情况,本文开展了基于改进Page Rank算法的引文推荐系统研究,主要分为三个部分:(1)利用学术授信评价理论对Page Rank算法进行改进,提出了ACPage Rank算法,利用该算法对引文推荐列表进行优化排序。该算法的核心思路为:识别引文网络中的专家群体,根据专家群体的引用情况调整引文网络中部分文献的权重。(2)使用文献全文本构建特征向量,以降低用户漏引概率。将ACPage Rank算法与构建特征向量常用的LSI模型相结合,设计出一套引文推荐系统。该系统不仅可以显示推荐文献列表的篇名,还能向用户展示文献中最相关的段落,以及该主题的高产作者及机构。(3)建立样本数据集,对本研究开发出的系统进行测试,并对实验结果进行分析与总结。实验结果表明:LSI模型比TF-IDF模型更适用于引文推荐系统,它不仅能较好地解决同义词问题,且查全率和查准率均可以较TF-IDF模型提升4%以上。采用ACPage Rank算法的LSI模型能进一步优化文献推荐效果,将专家群体引用、认可的高质量文献优先呈现给用户。本文所设计系统的推荐结果综合考虑了文献的被引情况、获得专家群体学术授信情况等多种因素,较好地体现了“内行”视角的相关文献发现过程,帮助用户快速发现专业领域内的高价值文献。总之,该系统有助于减少非相关文献的干扰,帮助用户提高文献调研效率。
词句篇三层级引文推荐模型研究
这是一篇关于引文推荐,信息检索,语义表示,深度学习的论文, 主要内容为学术研究是一个不断探索和发展的过程,文献作为学术传播与交流的载体,具有重要意义。文献引用是证实主张与概念的重要任务,恰当的引用能够为文章提供充分的理论依据,也帮助读者正确理解文章的写作意图与思路。面对海量文献,引文推荐系统自动为输入文本推荐合适的文献,是一种高效快速的解决方案。根据引用上下文的差异性,引文推荐被分为全局与局部两个类别。但传统的局部引文推荐偏重学术研究价值,忽视了词级的实体引用与句子级的观点性引用在实际应用中的差异,且仅从作者角度出发,实用价值受限。对此,笔者主要完成两部分工作,一是从使用场景出发,将局部引用细分为词语(实体)和句子(观点)两个分支,并结合审稿人主观需求与客观统计结果,提出实体引用的解决方案,填补研究空白;二是对现有的引文推荐进行模型算法的优化。本文基于审稿人与作者的需求,从实际问题出发,根据上述各任务的粒度,构建词句篇三层级引文推荐模型,作为对现有分类体系的补充和优化。具体研究工作和创新如下:(1)词语层级,实体引用,匹配审稿人视角。基于实体引用占比约25%的统计结果,从审稿人的实体漏引核查需求出发,利用文献的引用记录,建立实体与文章的映射关系,并根据语义匹配与引用频次高低的加权得分返回推荐文献。实验结果显示,提出的方法与实体引用匹配度高;(2)句子层级,观点性引用,匹配作者与审稿人双视角。现有的局部引文推荐对于引用句定位仍待进一步研究,笔者针对文章中某句话是否需要引用,使用基于文献预训练的SciBERT构建判别模型,对包含引用的句子进行特征提取与学习。对比实验表明,构建的判别模型效果优于前人的方法,有效判别引用句;(3)篇章层级,整体性文献推荐,匹配写作者视角。本工作将图卷积网络引入篇章级引文推荐,构建编解码器结构的推荐模型,赋予点和边不同于前人方法的结构定义,并使用图卷积网络对二者进行特征编码,最后通过解码重构图,返回文献推荐列表。实验证明,构建的模型在篇章级别引文推荐任务上效果良好。
基于孪生BERT网络和知识图谱的引文推荐研究
这是一篇关于知识图谱,引文推荐,图卷积神经网络,孪生网络,BERT的论文, 主要内容为随着信息时代的发展,各类信息呈指数型增长,数字化学术出版物的数量也愈发庞大。面对海量文献,科研人员在撰写论文选择参考文献时往往面临着信息过载问题。引文推荐方法的出现与发展成为了解决这类现象的有效方法之一,但传统的引文推荐方法大多是仅考虑论文文本内容的基于内容的推荐方法,存在挖掘论文信息不够全面,属性利用单一的问题。知识图谱作为蕴含大量语义与结构信息的图网络结构,可以有效补充各类信息,近年来受到大量研究者关注。基于知识图谱嵌入的推荐方法较为常见,但其侧重于根据语义相关性进行建模,更适合于知识图谱内部的构建任务而非推荐系统。针对以上问题,本文提出了基于孪生BERT网络的引文推荐模型和基于知识图谱和图卷积网络的引文推荐模型。论文主要工作如下:(1)研究提出了一种基于孪生BERT网络的引文推荐模型。该模型综合考虑论文的标题、摘要、关键字、学科领域和来源等信息,构建了代表每篇论文的语句表示。利用BERT模型提取论文句子级特征,利用孪生网络避免单一BERT模型在计算语义相似度时造成语义特征缺失的问题,联合孪生网络和BERT模型分别提取施引论文和候选被引论文的文本特征。最后计算论文间的语义匹配度,并根据语义匹配度排序,生成引文推荐列表。(2)研究提出了一种基于知识图谱和图卷积网络的引文推荐模型。利用图卷积神经网络将构建的论文知识图谱引入推荐系统。计算并聚合知识图谱中实体周围的邻居节点信息,充分挖掘知识图谱中的高阶结构信息和实体特征。将实体特征与由基于孪生BERT网络模型提取的论文文本特征融合,计算施引论文和候选被引论文间的引用概率。(3)在学术论文数据集OAG和DBLP上进行了多组引文推荐实验。实验结果表明,本文提出的基于孪生BERT网络的引文推荐模型与基于知识图谱和图卷积网络的引文推荐模型的推荐效果均有提升。说明了融合知识图谱与论文文本信息的引文推荐模型比使用单一技术的推荐模型效果更佳。
融合BERT和图注意力网络的知识图谱引文推荐研究
这是一篇关于知识图谱,引文推荐,图注意力网络,BERT网络,孪生网络的论文, 主要内容为面对海量文献资源,建立引文推荐模型帮助研究者提高文献检索效率是当前推荐算法领域中的研究热点。传统的引文推荐算法存在内容分析受限和冷启动问题,利用知识图谱所具有的强大语义表达能力和结构处理能力,则能从技术层面实现突破传统方法瓶颈的目的,并能有效捕获研究者的需求偏好,为其快速推选出权威的、前沿的、强相关的文献资源。基于此,论文的主要工作包括以下三个方面:(1)建立引文领域知识图谱模型。论文以计算机科学领域的文献资源为例,以引文资源为主体,引用参考为关系,利用改进的TF-IDF模型提取论文的关键字形成候选集合并转化为词向量进行聚类操作;利用多个不同内核大小的卷积神经网络融合计算得到多尺度的论文上下文特征,结合注意力机制从全局层面有针对性地增强节点特征,完成实体抽取任务;利用自注意力机制捕获单词间语义关系,将获得的向量与位置向量一同输入到卷积神经网络进行联合计算得到最终特征以完成分类操作,实现关系抽取任务;利用高性能的图形数据库Neo4j实现知识存储工作,完成后续算法的数据准备。(2)提出融合知识图谱和图注意力网络的引文推荐算法。首先使用Trans R算法将知识图谱信息映射为低维稠密向量;其次,利用图注意力网络通过多通道融合机制聚合邻居节点信息,丰富目标节点的语义;接着,引入动态卷积层动态聚合邻居节点信息,以提升模型的表达能力;最后,通过预测层计算用户和引文的交互概率。通过对比实验分析,所提算法的效果均优于文中的对比模型,评估指标MRR(Mean Reciprocal Rank)相较于对比模型中的次优模型NNSelect分别提升了6.0个百分点和3.4个百分点,精确率和召回率指标也有不同程度的提升,验证了算法的有效性。(3)提出了基于孪生BERT(Bidirectional Encoder Representations from Transformers)和动态图注意力网络的混合引文推荐。首先,针对BERT模型同时学习对比语句造成信息损失和混淆的问题,结合孪生网络和BERT模型分别学习施引论文和候选被引论文的文本输入信息,提取两者的文本特征以丰富引文的上下文信息;将知识图谱高阶嵌入表示与之拼接得到最终的引文特征,并送入预测模块计算两者的交互概率,弥补基于图形的引文推荐算法忽略论文文本语义特征的问题;通过对比实验分析,该算法相较于对比模型在各项指标均取得了较好的效果,验证了本文所提的混合推荐算法优于使用单一技术的推荐算法,推荐性能显著提升。
词句篇三层级引文推荐模型研究
这是一篇关于引文推荐,信息检索,语义表示,深度学习的论文, 主要内容为学术研究是一个不断探索和发展的过程,文献作为学术传播与交流的载体,具有重要意义。文献引用是证实主张与概念的重要任务,恰当的引用能够为文章提供充分的理论依据,也帮助读者正确理解文章的写作意图与思路。面对海量文献,引文推荐系统自动为输入文本推荐合适的文献,是一种高效快速的解决方案。根据引用上下文的差异性,引文推荐被分为全局与局部两个类别。但传统的局部引文推荐偏重学术研究价值,忽视了词级的实体引用与句子级的观点性引用在实际应用中的差异,且仅从作者角度出发,实用价值受限。对此,笔者主要完成两部分工作,一是从使用场景出发,将局部引用细分为词语(实体)和句子(观点)两个分支,并结合审稿人主观需求与客观统计结果,提出实体引用的解决方案,填补研究空白;二是对现有的引文推荐进行模型算法的优化。本文基于审稿人与作者的需求,从实际问题出发,根据上述各任务的粒度,构建词句篇三层级引文推荐模型,作为对现有分类体系的补充和优化。具体研究工作和创新如下:(1)词语层级,实体引用,匹配审稿人视角。基于实体引用占比约25%的统计结果,从审稿人的实体漏引核查需求出发,利用文献的引用记录,建立实体与文章的映射关系,并根据语义匹配与引用频次高低的加权得分返回推荐文献。实验结果显示,提出的方法与实体引用匹配度高;(2)句子层级,观点性引用,匹配作者与审稿人双视角。现有的局部引文推荐对于引用句定位仍待进一步研究,笔者针对文章中某句话是否需要引用,使用基于文献预训练的SciBERT构建判别模型,对包含引用的句子进行特征提取与学习。对比实验表明,构建的判别模型效果优于前人的方法,有效判别引用句;(3)篇章层级,整体性文献推荐,匹配写作者视角。本工作将图卷积网络引入篇章级引文推荐,构建编解码器结构的推荐模型,赋予点和边不同于前人方法的结构定义,并使用图卷积网络对二者进行特征编码,最后通过解码重构图,返回文献推荐列表。实验证明,构建的模型在篇章级别引文推荐任务上效果良好。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码工坊 ,原文地址:https://m.bishedaima.com/lunwen/56246.html