社交距离感知贝叶斯个性化排序推荐算法研究
这是一篇关于推荐系统,贝叶斯个性化排序,社交网络,随机游走的论文, 主要内容为推荐系统的用户反馈包含显示反馈和隐式反馈,显示反馈通常是指用户对物品的数值评分,而隐式反馈通常是以二元形式描述的用户对物品的交互行为。由于在实际的应用场景下显示反馈难以获取,因此推荐系统需要利用易于获取的隐式反馈学习用户的偏好。由于隐式反馈数据具有高度稀疏性,采用基于评分的方法估计用户对物品的数值评分难以获得好的效果,而采用基于排序的方法通过估计用户对物品的相对偏好可以避免隐式反馈数据的稀疏性。近年来,社交网络被引入推荐系统用于提升推荐的准确率,由于社交网络中的朋友间通常具有相似的爱好,因此可以利用用户的朋友的偏好来估计用户自己的偏好。现有的社交推荐方法只考虑了用户在社交网络中直接朋友,而没有考虑用户间的影响在社交网络中的传播过程。因此现有方法无法充分利用社交网络的图结构信息,限制了其推荐的准确率。针对现有方法的不足之处,提出一种社交距离感知贝叶斯个性化排序推荐算法(Social Distance-aware Bayesian Personalized Ranking,SDBPR),其核心思想是采用直接对用户的物品偏好排序进行建模的方式避免隐式反馈数据的稀疏性,并通过考虑任意两个多步距离的间接朋友模拟用户影响在社交网络中的传播过程,从而充分利用了社交网络的图结构信息。具体而言,SDBPR首先使用随机游走算法对社交网络进行遍历采样得到随机路径,并基于随机路径上的用户间距离生成用户对物品的二元排序假设;然后利用贝叶斯方法计算这些二元排序假设发生的概率并通过随机梯度下降法最大化这个概率得到用户及物品的特征表示;最后利用用户及物品的特征表示计算用户对物品的偏好数值,进而生成用户对物品的偏好排序列表。实验中在两个真实的数据集上测试SDBPR模型的性能,并将其与现有的其他几个方法作对比。实验结果表明,SDBPR模型比其他几个方法具有更好的推荐性能。
基于图嵌入和多样性排序的推荐研究
这是一篇关于个性化推荐,图嵌入,随机游走,时间衰减,重排策略的论文, 主要内容为大数据时代在带给我们方便的同时,也不可避免的造成了信息过载的困境,如何让用户在大规模数据中快速找到感兴趣的内容是推荐系统要解决的问题。近几年,基于图嵌入技术的推荐系统成为了研究热点,针对同构图、异构图、知识图谱的嵌入技术逐步被应用到推荐场景中。本文在召回模块中应用图嵌入技术,并针对图嵌入过程中未能考虑用户行为权重的问题,提出相应改进方案。在排序阶段中针对动态兴趣转变和多样性推荐两个技术点提出相应的排序策略,以下是本文研究内容:(1)本文将二部图嵌入模型引入到推荐的召回模块中,并针对图嵌入模型中忽略二阶顶点间的联系以及顶点在网络中的重要性问题,对嵌入模型进行了改进,利用改进后的嵌入模型学习用户和物品的节点嵌入表示,并根据两类节点的嵌入向量内积进行召回操作。针对推荐中二部图数据的特点对Bi NE模型提出改进,充分利用图中边权重信息,改进模型中对隐式关系的相应处理,使得模型更加关注图中重要的节点信息。实验在公开数据集Movie Lens和Film Trust上验证模型效果,在不同数据规模和不同应用场景上验证提出的召回算法优于基于图嵌入召回的Node2vec等方法,同时也验证本文提出的加权游走改进方法优于Bi NE原模型的召回效果。(2)本文在排序阶段考虑用户兴趣的动态转移以及推荐多样性问题,提出针对动态兴趣转移的排序算法,以及提高推荐多样性的重排策略。本文根据艾宾浩斯遗忘曲线拟合出时间衰减函数,并提出融入时间衰减因子的排序算法,修正用户的兴趣变化。利用物品流行度和受关注度进行推荐物品重排序,通过聚类方法将物品分类,并设计重排算法,对不同类型的用户按照流行度进行重排,将一些流行度低的物品推荐给用户。实验在公开数据集Movie Lens和goodbooks上分别验证了排序算法和重排策略的效果,实验证明本文提出的融合时间衰减因子的排序方法可以提升推荐模型的准确率,提出的多样性重排算法可以与多种推荐模型相结合,可以大幅提高推荐多样性。
基于异构网络节点嵌入的虚假评论群组检测算法
这是一篇关于虚假评论群组,异构信息网络,随机游走,K-Means,卷积神经网络的论文, 主要内容为近年来,随着电子商务网站及社交网络的快速发展,评论信息成为决定人们是否消费的重要因素。然而,虚假评论群组的存在影响了电商平台的真实性和公平性。为了检测虚假评论群组,人们进行了各种研究。这些方法存在的共同问题是不能很好的识别出虚假评论群组,导致检测精度不高。本课题围绕当前研究的局限性,从以下两方面进行了研究,具体内容如下。首先,针对现有算法无法充分挖掘用户之间的潜在关系且没有对检测指标进行重要程度的划分问题,提出基于元图的虚假评论群组检测算法。该算法通过提取用户、产品的评论时间和评分等信息,构建基于元图的异构网络,挖掘用户之间的潜在关系。之后采用改进的Deepwalk算法进行游走得到用户节点的低维向量表示,通过Canopy算法与K-Means算法相结合进行聚类得到虚假评论候选群组。并根据熵值法计算各检测指标的动态权重,将划分权重后的各检测指标融合得到群组怀疑度并对其进行排序,从而识别虚假评论群组。其次,针对现有算法对产品评论信息中相关属性挖掘不充分的问题,提出基于特征融合的虚假评论群组检测算法。算法融合了产品与评论时间、产品与评分产生两个新属性,构建用户与新属性融合后得到的基于特征融合的异构网络,采用节点嵌入的思想得到用户的向量表示。将用户向量输入到卷积神经网络中进行训练,根据用户预测值进行分阶段聚类,计算候选群组中的用户紧密度划分出虚假评论群组,得到最终检测结果。最后,对于本文中所提的算法,在Amazon和Miami数据集上进行实验,并将实验和已有算法进行对比,实验结果表明,本文提出的算法在给定数据集上的精确率与召回率方面具有一定优势。
基于Django框架的学术推荐系统设计与实现
这是一篇关于合作网络,随机游走,推荐系统,Django框架的论文, 主要内容为目前随着社会不断向前发展,人类随之进入大数据时代,海量的学术数据(论文、专利、期刊会议等)出现在互联网上,在计算机领域建立科学有效的合作变得比以往任何时候都更具有挑战,科研人员通常很难找到和自己最匹配的合作者(BMCs)。此外,对研究人员来说,投稿时也很难选择合适的场所发表论文,在海量论文中寻找感兴趣的文献更成为一个棘手的问题。目前,大多数科研人员都是通过关键词搜索来寻找对自己有用的学术资源,但这种方式效率低下,并且也难以满足用户的多元化以及个性化需求。因此,目前急需一个学术推荐系统,为研究人员推荐感兴趣的学术资源,来加快科研进度。本文创新性的提出了一种基于多相似度融合的最匹配合作者推荐模型叫做BMCRec,BMCRec模型融合了学者间的合作关系相似度、研究领域相似度以及学术水平相似度三个学术特征,其中合作关系相似度综合考虑了两个学者之间最近的合作时间、合著论文的次数两个因素,研究领域相似度通过学者发表论文摘要的内容相似度来衡量,学术水平相似度综合了学者的学术年龄、H-index、发表论文的数量、总被引次数和合作者数量五个学术指标进行衡量。之后通过学术大数据建立学术合作网络,构建学者间的转移概率矩阵,最后通过改进的重启型随机游走算法来计算网络中各节点间的相似性,并与MVCWalker模型以及重启型随机游走模型RWR两个模型进行了对比实验,证明了BMCRec算法的优越性,最后推荐的结果更加准确,从而为目标学者推荐最匹配的合作者。其次,本文基于多层感知器建立了期刊会议推荐模型叫做JCR-MLP,JCR-MLP模型通过给定待提交论文的标题、摘要和关键字信息,之后通过使用TF-IDF、卡方检验和独热编码等自然语言处理相关技术提取出输入文本的特征信息形成特征向量,最后将该特征向量输入到多层感知器中进行预测,向用户推荐合适的期刊或会议,供用户投稿时参考。最后,本文基于DBLP引文网络数据集,对所提出的合作者推荐算法以及期刊会议推荐算法进行了实现,并对学术推荐系统的各个功能模块进行了具体的设计与开发。
基于多源信息的实体链接算法研究及应用
这是一篇关于实体链接,歧义消解,随机游走,实体嵌入,知识图谱的论文, 主要内容为实体链接(Entity Linking)是知识图谱领域一项关键的基础技术,其任务是要将非结构化文本中提及的实体和知识库中存储的实体进行一一映射,以帮助计算机更精准地理解输入的自然语言。实体链接在知识库扩展、信息检索、智能问答、内容推荐等场景下有着广泛的应用,是知识图谱领域的热点研究问题之一。本文通过对国内外基于图结构和实体嵌入的实体链接相关研究进行调研,针对实体链接研究中生成的候选实体集噪声过大,候选实体一致性衡量不精确,相似候选实体消歧能力不足等问题,提出了两种基于图结构的联合实体链接算法。具体地,本文的主要工作包括:1、提出了基于LeaderRank的联合实体链接算法—LRCEL,该算法主要包括实体识别模块、候选实体集生成模块、实体关联图构造模块、候选实体排序模块这四个主要模块。首先考虑输入文本中潜在的语义信息和本地知识库中蕴含的语义信息,生成规模小而精确的候选实体集,随后通过候选实体集构造包含候选实体强弱语义关系的实体关联图,最后利用关联图中包含的多源信息结合LeaderRank进行候选实体排序,选择一组候选实体作为输入中各实体提及的最终链接对象,完成各实体提及与知识库实体的链接。实傼结果证明相较于经典的联合实体链接方法Babelfy,LRCEL算法在候选实体生成,实体主题一致性度量等多个方面都有较大优势,链接整体表现上也更加优秀,平均F1值提升了11%。2、在LRCEL算法的基础上进一步进行改进,提出了基于实体嵌入的联合实体链接算法—EECEL。EECEL算法通过随机游走相关算法和词嵌入模型生成知识库中每个实体对应的实体嵌入,然后直接利用实体嵌入计算候选实体间的一致性,进一步改善实体相关图中的实体关联性表达。该算法还利用实体嵌入生成输入文本的主题向量,利用主题向量优化算法的候选实体集生成和候选实体排序模块。在两个知识库的三组数据集上,EECEL算法都比LRCEL算法的链接表现更好,平均F1值提升了2%,充分证明了基于实体嵌入能帮助实体链接算法取得更好的效果。LRCEL和EECEL算法后续将重点从上下文选择方法、本地知识库稠密化、实体提及识别方法这三个方面进行研究,提升现阶段两种实体链接算法的链接效果。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码港湾 ,原文地址:https://m.bishedaima.com/lunwen/48787.html