基于实体类型与路径信息的知识表示学习研究
这是一篇关于知识图谱,知识表示学习,实体类型,关系路径,实体预测,关系预测的论文, 主要内容为随着知识图谱在学术界和工业界的广泛研究和普遍应用,完善与更新知识图谱数据,提升知识图谱质量成为亟不可待的任务,知识表示学习作为知识图谱补全重要的上游技术越来越受到人们的关注。知识表示学习的目标是将知识图中实体和关系嵌入到向量空间中,使它们的语义关联以可计算的形式更好地表达。知识表示学习广泛应用于实体/关系预测与补全等场景。大多数知识表示学习模型基于图结构本身的实体/关系信息,如翻译模型、卷积/图神经网络模型等。一些已开发的模型还使用了补充的附加信息,如TKRL中的实体类型和PTrans E中的多步路径等。然而,这些模型也有各自的局限。例如,面对复杂的关系类型,嵌入的近似向量分布模糊;基于卷积/图神经网络的模型不能预测关系;关系/实体预测的准确性不够;当数据稀疏时,知识图谱补全质量下降等。针对以上问题,本文提出了集成实体和关系附加信息的知识表示学习方法(Integrating Entity and Relation Additional Information for Knowledge Representation Learning,简称IERAI)、融合实体类型和关系路径的知识表示学习研究(Integrating Entity Type and Relation Path Information for Knowledge Representation Learning,简称TP-KRL)和基于间接关系路径投影的知识表示学习方法(Indirect Relation based Path Projection,简称IRPP),在一定程度上解决了已有的知识表示学习方法存在的问题。本文主要研究工作如下:(1)为了同步提高关系和实体向量嵌入的质量,本文提出了集成实体和关系附加信息的知识表示学习方法IERAI。我们首先通过计算间接关系路径和直接关系的共现概率的大小对候选路径进行排序来过滤有效路径信息,接着利用直接关系选择实体类型信息,再对多源信息进行建模并联合训练。类型信息的融合可以减少实体表示的歧义,同时,有效的间接关系可以提高关系表示的精度。在FB15K和FB15K-1855(添加低频关系)数据集上的实验结果表明,IERAI能够有效提高实体与关系预测的质量,多种附加信息的融合一定程度上弥补了数据稀疏时嵌入不准确的问题。(2)提出了融合实体类型和关系路径的知识表示学习研究TP-KRL。基于对IERAI模型的进一步研究,我们发现除了直接关系,路径中的间接关系同样会对头尾实体的类型信息进行限制,并且在某些场景下,直接关系也无法确切选择实体对应的正确类型,此时只有路径中的间接关系可以确定。两步关系路径中的第一步关系会和直接关系共同限定头实体类型信息,第二步关系会和直接关系共同限定尾实体类型信息。于是我们进一步提出融合实体类型和关系路径的知识表示学习算法TP-KRL,在三元组缺失部分预测实验上的结果证明,TP-KRL对实体表示和关系表示的效果均有提升。(3)为了进一步利用关系路径的附加语义,本文提出了一种新的关系路径投影模型IRPP。我们对直接关系和关系路径均设置不同的投影空间,为降低算法复杂度,直接关系映射矩阵由向量乘法构建,关系路径空间的映射矩阵由多个直接关系映射矩阵组合得到。我们将每个实体投影到直接关系和间接关系路径的潜在空间中,利用平移近似原则构建联合得分函数和损失函数,在训练中学习实体与关系的分布式表示。实验结果证明IRPP有助于知识图谱的补全与推理。
融合实体类型特征的知识图谱嵌入方法及其应用
这是一篇关于知识图谱,嵌入表示,邻域关系,实体类型,图注意力网络,聚类的论文, 主要内容为随着互联网数据的爆炸增多,如何高效地获取数据中的信息和知识是一项巨大的挑战。知识图谱嵌入表示的准确性,对于相关知识获取任务模型的性能具有重要的基础性影响,是目前知识图谱领域的研究热点之一。本文以提升知识图谱嵌入表示的准确性为目标,展开理论及其实验研究,以提高相关知识获取模型的表现。首先,针对知识图谱中实体类型信息时常缺失的现象,在充分利用知识图谱内部结构信息的基础上,提出一种基于邻域关系表征向量的实体类型特征提取方法,以期将实体类型特征融合到知识图谱实体和关系的嵌入表示中,增强模型实体与关系嵌入表示的表达能力,达到提升知识获取任务模型性能之目的。该方法首先基于邻域关系对实体进行表征,进而采用聚类与降维相结合的方式实现各簇实体共性特征的提取,并将其作为实体类型特征。然后,为使实体和关系的嵌入表示蕴含更丰富的语义信息,本文提出一种融合实体类型特征的知识图谱嵌入模型(FTKGE),以增强嵌入表示的准确性。该模型采用基于邻域关系表征向量的实体类型特征提取方法提取实体的类型特征;通过图注意力网络对知识图谱中实体和关系进行表示学习,得到蕴含一定语义信息的实体嵌入向量;并将实体类型特征与实体嵌入向量进行融合,从而得到更准确的实体嵌入向量表示。最后,为了验证所提方法的正确性,本文基于WN18RR和FB15k-237两个数据集进行了链接预测实验。为了体现所提方法的先进性,本文与多个先进知识图谱嵌入模型进行了对比分析。实验结果验证了本文所提FTKGE模型的有效性及基于邻域关系表征向量的实体类型特征提取方法的有效性。
基于实体类型与路径信息的知识表示学习研究
这是一篇关于知识图谱,知识表示学习,实体类型,关系路径,实体预测,关系预测的论文, 主要内容为随着知识图谱在学术界和工业界的广泛研究和普遍应用,完善与更新知识图谱数据,提升知识图谱质量成为亟不可待的任务,知识表示学习作为知识图谱补全重要的上游技术越来越受到人们的关注。知识表示学习的目标是将知识图中实体和关系嵌入到向量空间中,使它们的语义关联以可计算的形式更好地表达。知识表示学习广泛应用于实体/关系预测与补全等场景。大多数知识表示学习模型基于图结构本身的实体/关系信息,如翻译模型、卷积/图神经网络模型等。一些已开发的模型还使用了补充的附加信息,如TKRL中的实体类型和PTrans E中的多步路径等。然而,这些模型也有各自的局限。例如,面对复杂的关系类型,嵌入的近似向量分布模糊;基于卷积/图神经网络的模型不能预测关系;关系/实体预测的准确性不够;当数据稀疏时,知识图谱补全质量下降等。针对以上问题,本文提出了集成实体和关系附加信息的知识表示学习方法(Integrating Entity and Relation Additional Information for Knowledge Representation Learning,简称IERAI)、融合实体类型和关系路径的知识表示学习研究(Integrating Entity Type and Relation Path Information for Knowledge Representation Learning,简称TP-KRL)和基于间接关系路径投影的知识表示学习方法(Indirect Relation based Path Projection,简称IRPP),在一定程度上解决了已有的知识表示学习方法存在的问题。本文主要研究工作如下:(1)为了同步提高关系和实体向量嵌入的质量,本文提出了集成实体和关系附加信息的知识表示学习方法IERAI。我们首先通过计算间接关系路径和直接关系的共现概率的大小对候选路径进行排序来过滤有效路径信息,接着利用直接关系选择实体类型信息,再对多源信息进行建模并联合训练。类型信息的融合可以减少实体表示的歧义,同时,有效的间接关系可以提高关系表示的精度。在FB15K和FB15K-1855(添加低频关系)数据集上的实验结果表明,IERAI能够有效提高实体与关系预测的质量,多种附加信息的融合一定程度上弥补了数据稀疏时嵌入不准确的问题。(2)提出了融合实体类型和关系路径的知识表示学习研究TP-KRL。基于对IERAI模型的进一步研究,我们发现除了直接关系,路径中的间接关系同样会对头尾实体的类型信息进行限制,并且在某些场景下,直接关系也无法确切选择实体对应的正确类型,此时只有路径中的间接关系可以确定。两步关系路径中的第一步关系会和直接关系共同限定头实体类型信息,第二步关系会和直接关系共同限定尾实体类型信息。于是我们进一步提出融合实体类型和关系路径的知识表示学习算法TP-KRL,在三元组缺失部分预测实验上的结果证明,TP-KRL对实体表示和关系表示的效果均有提升。(3)为了进一步利用关系路径的附加语义,本文提出了一种新的关系路径投影模型IRPP。我们对直接关系和关系路径均设置不同的投影空间,为降低算法复杂度,直接关系映射矩阵由向量乘法构建,关系路径空间的映射矩阵由多个直接关系映射矩阵组合得到。我们将每个实体投影到直接关系和间接关系路径的潜在空间中,利用平移近似原则构建联合得分函数和损失函数,在训练中学习实体与关系的分布式表示。实验结果证明IRPP有助于知识图谱的补全与推理。
语义方面感知的知识图谱嵌入方法研究
这是一篇关于知识图谱嵌入,链接预测,图注意力网络,实体类型的论文, 主要内容为知识图谱嵌入通过将离散的关联实体和关系以嵌入的形式进行表示,实现了知识图谱中实体语义特征的数值化,方便了知识图谱在下游任务的应用,如知识图谱补全、知识问答、推荐系统等。然而,知识图谱在下游任务的应用效果直接取决于知识图谱嵌入的质量。因此,如何提高知识图谱中实体嵌入的质量,是知识图谱嵌入研究中重点关注的问题之一。目前的实体嵌入研究忽视了知识图谱自身中蕴含的丰富语义信息,如实体类型、本体等。实际上,这些语义信息更为规范、准确地定义了实体的内涵和外延,纳入这些语义信息可以提高实体嵌入的质量。有鉴于此,提出了语义方面感知的知识图谱嵌入模型(Semantic Aspect-aware Knowledge Graph Embedding,SAKGE),通过深入挖掘实体类型包含的语义信息,提出语义方面的概念将实体类型的语义和实体邻域三元组的语义对接融合,并在此基础上为实体嵌入聚合这两种信息。SAKGE设计了四种语义方面导向的实体邻域语义关联发现策略,分别是全感知策略、随机归属策略、基于全局统计的发现策略和聚类策略。SAKGE设计了一种两级的层级注意力机制,第一级是语义方面级注意力,负责感知不同的语义方面对实体的重要性,第二级是三元组级注意力,负责感知不同的三元组在所属语义方面下的重要性。基于该细粒度的机制有层次地聚合实体邻域三元组,为分配注意力系数的过程增加可解释性。为评估SAKGE生成的知识图谱嵌入的质量,在FB15k、FB15k-237、NELL-995数据集上进行链接预测任务的测试。实验结果表明,相比于现有方法SAKGE在多个指标上有明显提升,MRR指标提升2.45%至7.66%,Hits@10指标提升3.09%至4.26%,Hits@3指标提升2.38%至4.03%,具有更好的嵌入质量。
大规模知识图谱嵌入方法的研究
这是一篇关于知识图谱,知识图谱嵌入,实体类型,联合嵌入的论文, 主要内容为知识图谱是人类知识的一种显式表示方式,作为近年来人工智能研究的热点领域之一,已被广泛应用于语义搜索、人机互动、辅助决策等智能应用场景。然而,在各种知识图谱驱动的应用中,往往需要借助知识图谱嵌入技术将知识图谱中的元素表示为低维稠密的向量形式,弥补显示知识表示的不足,以满足大量推理、分析和预测的需要。虽然知识图谱嵌入已有很多研究工作,但仍存在知识表示不准确和语义不够丰富的明显不足:(1)基于翻译思想或距离度量的模型不能充分表示知识图谱中的复杂关系;(2)部分模型仅利用知识图谱中的三元组结构信息;(3)多数模型忽略了知识图谱中概念和实例的区别。针对上述问题,本文探索如何有效利用知识图谱中的多源信息作为三元组结构信息的补充,提高知识嵌入结果的质量。主要研究工作包括:1.提出了一种融合实体类型的知识图谱嵌入模型TransET:针对现有知识图谱嵌入模型忽视了实体类型的问题,TransET设计了一种基于实体类型表示的圆周卷积映射函数,用于构建实体在不同类型下的表示。然后利用基于翻译的思想学习映射后的实体以及关系构成的三元组的结构信息。同时,在学习时以一定的概率限制负采样的实体的类型,加大属于相同类型的实体之间的差异,同时兼顾它们之间的某些相似性。TransET模型具有丰富知识表示的语义信息,并在一定程度上解决复杂关系问题的特点。2.提出了考虑概念和实例的联合嵌入模型JECI和JECI++:针对现有知识图谱嵌入模型未区分概念和实例的问题,JECI模型设计了一种基于邻居信息和所属概念信息的圆周卷积预测函数,用于预测目标实例。该预测函数将概念和实例联系起来,使之共同得到学习。针对JECI模型中存在的普适性较低和复杂度较高等问题,JECI++模型简化了层级概念,并将关系考虑进邻居信息中。JECI模型和JECI++模型在负采样时,对负样本中的实例类型进行了限制,进一步提高了知识表示的质量。两者均可解决概念和实例差异带来的知识表示的质量问题,以及缓解拥有拥有相似关系或属于相似概念的实例在嵌入空间中聚集的现象。在从Freebase、DBpedia以及YAGO等真实知识图谱基础上中构造了评估数据集,采用链接预测和三元组分类等经典知识图谱嵌入任务对本文提出的模型进行了系统评估,并与经典模型进行了系统对比。TransET模型的实验结果比最优基线模型高2.2%~9.8%,JECI++模型的实验结果比最优基线模型高1.7%~18.6%。结果表明:(1)实体类型中蕴含的信息有助于学习到更好的知识表示结果;(2)概念和实例的区分对于得到更加精准的知识表示很有用;(3)实例的邻居信息可以提高相似实例的辨识度;(4)圆周卷积可以充分捕获对象间的语义关联。
基于模式和预训练语言模型的中文实体关系抽取研究
这是一篇关于实体关系抽取,预训练语言模型,关系模式,实体类型的论文, 主要内容为实体关系抽取作为自然语言抽取领域的重要子任务,在知识图谱、搜索引擎以及智能问答等下游任务中发挥着重要的作用,根据命名实体识别和关系抽取两个子任务是否相互独立,分为流水线式抽取和联合式抽取两种方法。近年来基于预训练语言模型的联合式实体关系抽取方法取得了不错的研究进展,但仍然会出现实体重叠、关系重叠以及实体冗余等问题,同时在进行关系抽取时没有充分利用实体本身蕴含的重要信息。特别是中文实体关系抽取,由于语言表达的特点,在进行实体关系抽取的第一步便是分词,在这个过程中常常会出现实体边界切分错误;并且由于中文语义比较复杂,实体关系抽取研究起步比较晚,而且相关研究不如英文那么热门。本文针对联合式实体关系抽取存在的问题以及中文研究存在的现实困境进行了深入的分析研究,提出了一种基于模式和预训练语言模型的中文实体关系联合抽取方法SC-ERE(Schema-based Chinese Entity Relation Extraction model),并在Du IE、San Wen、Fin RE以及ACE2005数据集上进行了实验,验证了本文提出的方法的有效性。本文的主要工作如下:(1)采用字词混合向量的方式将预训练的词向量与字向量相结合,同时加入包含位置信息的位置向量,提高中文分词边界切分的准确度,进一步提高模型的整体表现。(2)采用“先抽取头实体,再抽取特定关系种类下的尾实体”的实体关系抽取框架,允许头实体同一关系种类下存在多个尾实体,能够解决实体重叠和关系重叠问题。(3)提出了利用关系模式对基于预训练语言模型的实体关系抽取方法进行增强的方法,利用关系模式进行头实体所存在的候选关系种类以及存在关系的实体的筛选,可以增强模型对于特定关系以及存在关系的实体的关注度,解决实体冗余问题;(4)提出了利用实体类型信息进行尾实体抽取的方法,将尾实体类型编码与句子编码、头实体编码以及关系种类编码相结合,能够对尾实体的识别进行指导和约束,提高三元组抽取的准确率。
语义方面感知的知识图谱嵌入方法研究
这是一篇关于知识图谱嵌入,链接预测,图注意力网络,实体类型的论文, 主要内容为知识图谱嵌入通过将离散的关联实体和关系以嵌入的形式进行表示,实现了知识图谱中实体语义特征的数值化,方便了知识图谱在下游任务的应用,如知识图谱补全、知识问答、推荐系统等。然而,知识图谱在下游任务的应用效果直接取决于知识图谱嵌入的质量。因此,如何提高知识图谱中实体嵌入的质量,是知识图谱嵌入研究中重点关注的问题之一。目前的实体嵌入研究忽视了知识图谱自身中蕴含的丰富语义信息,如实体类型、本体等。实际上,这些语义信息更为规范、准确地定义了实体的内涵和外延,纳入这些语义信息可以提高实体嵌入的质量。有鉴于此,提出了语义方面感知的知识图谱嵌入模型(Semantic Aspect-aware Knowledge Graph Embedding,SAKGE),通过深入挖掘实体类型包含的语义信息,提出语义方面的概念将实体类型的语义和实体邻域三元组的语义对接融合,并在此基础上为实体嵌入聚合这两种信息。SAKGE设计了四种语义方面导向的实体邻域语义关联发现策略,分别是全感知策略、随机归属策略、基于全局统计的发现策略和聚类策略。SAKGE设计了一种两级的层级注意力机制,第一级是语义方面级注意力,负责感知不同的语义方面对实体的重要性,第二级是三元组级注意力,负责感知不同的三元组在所属语义方面下的重要性。基于该细粒度的机制有层次地聚合实体邻域三元组,为分配注意力系数的过程增加可解释性。为评估SAKGE生成的知识图谱嵌入的质量,在FB15k、FB15k-237、NELL-995数据集上进行链接预测任务的测试。实验结果表明,相比于现有方法SAKGE在多个指标上有明显提升,MRR指标提升2.45%至7.66%,Hits@10指标提升3.09%至4.26%,Hits@3指标提升2.38%至4.03%,具有更好的嵌入质量。
语义方面感知的知识图谱嵌入方法研究
这是一篇关于知识图谱嵌入,链接预测,图注意力网络,实体类型的论文, 主要内容为知识图谱嵌入通过将离散的关联实体和关系以嵌入的形式进行表示,实现了知识图谱中实体语义特征的数值化,方便了知识图谱在下游任务的应用,如知识图谱补全、知识问答、推荐系统等。然而,知识图谱在下游任务的应用效果直接取决于知识图谱嵌入的质量。因此,如何提高知识图谱中实体嵌入的质量,是知识图谱嵌入研究中重点关注的问题之一。目前的实体嵌入研究忽视了知识图谱自身中蕴含的丰富语义信息,如实体类型、本体等。实际上,这些语义信息更为规范、准确地定义了实体的内涵和外延,纳入这些语义信息可以提高实体嵌入的质量。有鉴于此,提出了语义方面感知的知识图谱嵌入模型(Semantic Aspect-aware Knowledge Graph Embedding,SAKGE),通过深入挖掘实体类型包含的语义信息,提出语义方面的概念将实体类型的语义和实体邻域三元组的语义对接融合,并在此基础上为实体嵌入聚合这两种信息。SAKGE设计了四种语义方面导向的实体邻域语义关联发现策略,分别是全感知策略、随机归属策略、基于全局统计的发现策略和聚类策略。SAKGE设计了一种两级的层级注意力机制,第一级是语义方面级注意力,负责感知不同的语义方面对实体的重要性,第二级是三元组级注意力,负责感知不同的三元组在所属语义方面下的重要性。基于该细粒度的机制有层次地聚合实体邻域三元组,为分配注意力系数的过程增加可解释性。为评估SAKGE生成的知识图谱嵌入的质量,在FB15k、FB15k-237、NELL-995数据集上进行链接预测任务的测试。实验结果表明,相比于现有方法SAKGE在多个指标上有明显提升,MRR指标提升2.45%至7.66%,Hits@10指标提升3.09%至4.26%,Hits@3指标提升2.38%至4.03%,具有更好的嵌入质量。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码港湾 ,原文地址:https://m.bishedaima.com/lunwen/56266.html