基于知识图谱的个性化推荐技术研究
这是一篇关于知识图谱,分布式表示,个性化推荐,协同过滤,稀疏性问题的论文, 主要内容为在当今互联网高速发展与信息爆炸增长的时代下,人们容易出现信息过载等问题,难以获取有效信息并学得知识。为了解决信息过载的问题,个性化推荐系统应运而生。相比搜索引擎,个性化推荐系统更适用于用户需求不明确或无法准确用关键词描述的应用场景,例如我们常见的新闻资讯类、电商类、音乐类等应用。在实际应用中,大多数推荐系统一般采用协同过滤推荐算法,仅输入用户交互数据,存在着稀疏性问题与冷启动问题,在一定程度上限制了推荐效果。从根源上讲,数据的不完善是导致数据稀缺和冷启动问题的根本原因,因此本文引入知识图谱作为辅助信息,重点研究了知识图谱的分布式表示方法、基于知识图谱的个性化推荐算法。本文的主要研究内容如下:首先,对于知识图谱的分布式表示方法,本文介绍了现有图分布式表示方法损失了子图级别高阶相似性的问题。为此,本文提出了一种基于循环神经网络的知识图谱分布式表示模型KG-GRU,利用包含节点与关系的序列,对子图相似性进行建模,将关系与节点表示在相同的嵌入向量空间。此外,本文提出跳转或停留策略JUST,指导随机游走对知识图谱进行数据采样,避免了手动构建元路径以及节点类型分布不平衡的问题。然后,本文提出了两种基于知识图谱的个性化推荐算法:KG-CF和KG-GRU4Rec。基于融合内容的协同过滤算法思想,KG-CF直接将领域知识图谱中物品的分布式表示向量融合进物品相似度计算,即向传统的基于物品的协同过滤算法补充了物品的语义信息,从而提高个性化推荐效果。KG-GRU4Rec改进于本文提出的知识图谱分布式表示模型KG-GRU,实现了一个端到端预测用户评分的模型,避免了KG-CF的评分预测依然依赖用户历史评分数据的问题。最后,在实验阶段,本文以电影推荐为应用场景,选择了个性化推荐领域广泛应用的Movie Lens电影推荐数据集。为评估本文提出的上述算法模型,本文调研并实现了电影领域知识图谱的构建,包括从电影领域本体库的构建,电影相关数据爬取,到知识的抽取与存储。最后,本文通过链接预测实验证明了KG-GRU模型能够学习本文构建的电影领域图谱中实体与关系较为准确的分布式表示,通过Top-N电影推荐实验证明了KG-CF和KG-GRU4Rec推荐算法在命中率和平均倒数排名方面优于对比算法。
引入三元组上下文与文本的知识图谱表示学习方法研究
这是一篇关于知识图谱,表示学习,知识表示,分布式表示的论文, 主要内容为近年来,随着深度学习技术的发展,知识图谱表示学习技术日益受到关注。知识图谱表示学习旨在将知识图谱中的实体与关系的语义信息表示为稠密低维实值向量,可以在低维向量空间中高效计算实体和关系的语义联系,有效缓解基于RDF的知识表示形式所存在的问题,能够显著提升知识获取、融合与推理的性能。然而,当前绝大多数表示学习模型都将知识图谱看作独立的三元组的集合,忽略了三元组中的实体在图中的关联以及知识图谱中的结构信息;此外,互联网上海量的文本中蕴含着大量与知识图谱中实体和关系相关的信息,能够有效补充知识图谱的语义信息。基于以上动机,本文提出了引入三元组上下文与文本的知识图谱表示学习模型。本文考虑了两种三元组上下文信息,一种是邻居上下文,即实体在知识图谱中邻接的关系与实体,这些关系-实体对能够从一定侧面反映目标实体的性质;另一种是路径上下文,即实体对在知识图谱中存在的关系路径,这些关系路径能够表达一些复杂的推理模式。除此之外,本文还引入了文本信息,将文本语料中包含三元组头尾实体指称的句子作为实体对之间存在关系的描述,从而能够有效利用文本中的语义信息对知识图谱表示学习进行信息的补充。本文的主要贡献如下:1)提出一个引入了三元组上下文的知识图谱表示学习模型,利用实体在知识图谱中邻接的关系与实体以及实体对之间的关系路径来帮助建模三元组。2)提出一个引入三元组上下文与文本的知识图谱表示学习模型,利用实体对指称共现的句子来辅助建模实体对之间的关系。3)在基准数据集上进行实验,并利用常用的评估标准对实验结果进行评估,实验结果表明本文提出的模型在一些方面上明显优于现有模型。
基于多源信息的知识表示学习方法研究
这是一篇关于知识图谱,知识表示,分布式表示的论文, 主要内容为知识图谱以形如(实体1,关系,实体2)这样的三元组的形式存储结构化数据,成为了很多智能应用的基础。众多的知识图谱,如Freebase、DBpedia、YAGO已经被成功构建并应用到关系抽取、信息检索、自动问答、实体链接等场景。有效的知识图谱表示方法是贯通知识图谱构建与应用全过程的核心。以独热表示为代表的传统的表示方案假设所有对象独立不相关,造成大量信息的浪费,无法充分利用对象的语义信息,存在数据稀疏的问题,因此无法对三元组进行有效地表示。同时由于知识的爆炸式增长,知识图谱需要不断丰富,知识图谱中还存在大量需要补全的知识,如果通过设计专门的图算法对每一个实体和关系进行语义计算和关系推理,不仅可移植性差,而且计算复杂度高、难以进行大规模运算。然而,知识图谱的表示学习通过将实体和关系表示为低维稠密的实值向量,可以高效计算实体和关系的语义联系,进而进行关系推理,实现异质信息融合,提高计算效率。但是知识图谱的表示学习依旧存在许多挑战。首先是大多数表示学习方法仅从结构角度对三元组建模,忽略了种类丰富的多源信息,缺乏有效的方式从中提取互补信息以及缺乏有效的融合方式。其次是由于大多数方法仅从全局角度通过潜在特征对实体和关系进行学习,因此对于在一些场景无法提供精确的语义表示,无法有效地对复杂关系进行建模。同时,大多数现有方法学习到的分布式表示都能蕴含实体的基本语义信息和结构信息,但表示无法表达更高层次的信息。针对以上问题,本文在已有工作的基础上改进了表示学习方法,主要工作如下:(1)提出了基于判别路径的知识图谱表示学习方法DPTransE,该方法由潜在特征学习模型和图特征学习模型构成。前者提取多步关系路径蕴含的语义信息,基于语义相似度假说从全局角度学习三元组表示;后者基于图模式从局部角度挖掘实体和关系的图特征,并作为先验信息促进潜在特征学习。DPTransE方法充分利用两类模型的优势,整合了两类模型的特征,其中路径聚类算法提升了路径特征的置信水平,并且一定程度上解决了数据稀疏问题。实验验证了 DPTransE方法可以提高表示学习的质量,证明了方法的有效性。(2)提出了基于结构和实体类别信息的联合表示学习方法CEKE,该方法充分利用实体的类别信息,提出了一个联合学习框架,将基于知识图谱结构的表示学习同实体类别的分布式表示学习统一起来,并对两者的学习过程构建闭环。通过显式地学习实体类别的分布式表示可以优化知识表示,使实体和关系的表示不仅能体现语义信息、结构信息同时能蕴含潜在的更高层次的类别信息。实验结果验证CEKE模型在链接预测和三元组分类的任务性能上取得了显著提升,进一步说明了模型的有效性。
基于多源信息的知识表示学习方法研究
这是一篇关于知识图谱,知识表示,分布式表示的论文, 主要内容为知识图谱以形如(实体1,关系,实体2)这样的三元组的形式存储结构化数据,成为了很多智能应用的基础。众多的知识图谱,如Freebase、DBpedia、YAGO已经被成功构建并应用到关系抽取、信息检索、自动问答、实体链接等场景。有效的知识图谱表示方法是贯通知识图谱构建与应用全过程的核心。以独热表示为代表的传统的表示方案假设所有对象独立不相关,造成大量信息的浪费,无法充分利用对象的语义信息,存在数据稀疏的问题,因此无法对三元组进行有效地表示。同时由于知识的爆炸式增长,知识图谱需要不断丰富,知识图谱中还存在大量需要补全的知识,如果通过设计专门的图算法对每一个实体和关系进行语义计算和关系推理,不仅可移植性差,而且计算复杂度高、难以进行大规模运算。然而,知识图谱的表示学习通过将实体和关系表示为低维稠密的实值向量,可以高效计算实体和关系的语义联系,进而进行关系推理,实现异质信息融合,提高计算效率。但是知识图谱的表示学习依旧存在许多挑战。首先是大多数表示学习方法仅从结构角度对三元组建模,忽略了种类丰富的多源信息,缺乏有效的方式从中提取互补信息以及缺乏有效的融合方式。其次是由于大多数方法仅从全局角度通过潜在特征对实体和关系进行学习,因此对于在一些场景无法提供精确的语义表示,无法有效地对复杂关系进行建模。同时,大多数现有方法学习到的分布式表示都能蕴含实体的基本语义信息和结构信息,但表示无法表达更高层次的信息。针对以上问题,本文在已有工作的基础上改进了表示学习方法,主要工作如下:(1)提出了基于判别路径的知识图谱表示学习方法DPTransE,该方法由潜在特征学习模型和图特征学习模型构成。前者提取多步关系路径蕴含的语义信息,基于语义相似度假说从全局角度学习三元组表示;后者基于图模式从局部角度挖掘实体和关系的图特征,并作为先验信息促进潜在特征学习。DPTransE方法充分利用两类模型的优势,整合了两类模型的特征,其中路径聚类算法提升了路径特征的置信水平,并且一定程度上解决了数据稀疏问题。实验验证了 DPTransE方法可以提高表示学习的质量,证明了方法的有效性。(2)提出了基于结构和实体类别信息的联合表示学习方法CEKE,该方法充分利用实体的类别信息,提出了一个联合学习框架,将基于知识图谱结构的表示学习同实体类别的分布式表示学习统一起来,并对两者的学习过程构建闭环。通过显式地学习实体类别的分布式表示可以优化知识表示,使实体和关系的表示不仅能体现语义信息、结构信息同时能蕴含潜在的更高层次的类别信息。实验结果验证CEKE模型在链接预测和三元组分类的任务性能上取得了显著提升,进一步说明了模型的有效性。
农产品知识图谱问答方法研究
这是一篇关于农产品,知识图谱问答,命名实体识别,用户意图识别,预训练语言模型,分布式表示,生成式对抗网络的论文, 主要内容为农业领域知识服务区别于基于互联网的搜索引擎服务,应当基于农业领域专业知识,提供便捷的查询服务以及准确、简洁的相关答案。知识图谱为这种领域知识服务提供了理论和技术支撑。现有的农业知识图谱问答系统侧重知识图谱构建和系统开发,对实际场景中的问答算法研究较少。本文立足于知识图谱和自然语言处理技术,面向农业农产品知识问答服务,主要研究在问答过程中的命名实体识别方法和用户意图识别方法,为农产品知识问答提供解决思路和技术支持。基于此,本文的具体研究内容如下:(1)针对农产品知识图谱问答缺少公开、可用、已标注的相关数据集,并且考虑到通过爬虫获取农业文本需要再进行人工清洗、标注的方法费时费力这一问题,本文以现有的农产品本体知识库为基础,基于模板的方法自动、批量地构建了相关的农产品命名实体识别数据集和用户意图识别数据集。(2)针对现有基于预训练语言模型的命名实体识别方法将模型最后一层的句子表示作为文本的分布式表示,忽略了模型内部包含丰富的语言学信息的问题,本文提出了基于递进式卷积网络的表示增强模型,通过卷积函数融合模型所有层的句子分布式表示,聚合模型内部的语言学信息,实现更精准的农产品实体识别。本文方法首先使用预训练语言模型将用户问句映射到表示空间,得到侧重点各不相同的分布式表示集合;然后利用递进式卷积网络对表示集合进行融合,得到聚合表示;最后利用条件随机场对得到的聚合表示进行解码,得到实体标签序列。本文在多个公开数据集上进行的实验和分析,以及在农产品命名实体数据集上的实验结果充分表明了递进式卷积网络在表示聚合中的有效性。(3)针对在实际应用场景中存在某些用户意图被提问到的概率极小,并且可以获得的训练数据极少,但是系统依然需要能够准确的做出反应的问题,本文提出了生成式对抗网络辅助的用户意图识别方法。方法基于生成式对抗网络,设计了两阶段的模型训练方法,增强模型对于少数类的表示能力和识别能力。在农产品用户意图识别数据集上的实验结果表明,本文方法能够有效提升模型的用户意图识别准确率,增强模型的鲁棒性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设向导 ,原文地址:https://m.bishedaima.com/lunwen/56219.html