面向知识图谱补全的嵌入模型研究
这是一篇关于知识图谱嵌入,多视角学习,相似性负采样,链接预测,三元组分类的论文, 主要内容为随着大数据时代的到来,知识的存储与表示变得尤为重要。知识图谱是知识表示最有效的方式之一,被广泛的应用于智能搜索、智能问答等智能化应用。虽然,现有知识图谱的规模已经十分庞大,但其距离达到知识的完备状态依旧十分遥远。知识图谱的完备程度将直接影响智能化应用的性能好坏。为此,知识图谱补全技术备受关注,已经成为当前的一个研究热点。知识图谱嵌入旨在利用连续的、稠密的、低维的向量来表示知识图谱中的实体和关系,以便使用低维向量进行知识的推理和补全。近年来,基于翻译的模型表现出强大的可行性和鲁棒性,在知识图谱补全任务中实现了最先进的性能。但是现有翻译模型仍存在知识表示不够精确、负例三元组质量较低等不足,为了克服这些不足本文提出了MvTransE与TransE-SNS模型。本文主要研究内容如下:(1)本文提出了一种多视角学习的嵌入模型MvTransE。该模型先从实体的语义和结构角度生成多个平行子图。然后将原始的知识图谱和子图分别嵌入到全局视角空间和局部视角空间。最后利用多视角融合策略整合关系事实的多视角表示。MvTransE解决了现有模型的两个不足之处。第一,TransE、TransH等模型侧重于从全局出发,学习关系事实的全局表示,这样不能区别地学习各种类型的事实。特别是,它造成实体和关系在向量空间中的拥塞,从而降低了实体和关系向量的表示精度。第二,puTransE采用多个平行空间来学习局部事实,它损害了原始知识图谱的全局事实,从而降低了简单关系事实的学习能力。大量实验结果表明,MvTransE取得了最先进的性能。(2)本文提出了一种相似性负采样策略用于生成高质量的负例三元组。该策略先通过K-Means聚类算法将所有实体划分为多个簇。然后从正例三元组中头实体所在的簇中选择一个实体替换头实体,并以类似的方法替换尾实体。我们将相似性负采样策略与TransE相结合得到TransE-SNS。由于相似性负采样策略解决了TransE在训练中会生成大量的低质量负例三元组问题,提高了负例三元组的质量。大量实验结果表明,TransE-SNS的性能相较于TransE具有显著地提升。
多视角感知的多媒体知识图谱表示学习研究
这是一篇关于知识图谱表示学习,注意力机制,对比学习,链接预测,三元组分类的论文, 主要内容为知识图谱是一种流行的数据结构,主要用于在下游应用中查询和使用的事实知识的表示。知识图谱通常是由(头实体、关系、尾实体)三元组组成的多关系图,尽管这种三元组在组织结构化的事实方面很有效,但它们潜在的符号特性使得大多数的机器学习算法难以处理。为此,知识图谱表示学习旨在将这些符号化实体和关系嵌入到低维的连续向量空间中,以捕获实体和关系的内在结构信息,其为诸如关系抽取、信息检索、问答系统和推荐系统等不同的知识驱动任务提供了一种高效、系统的解决方案。然而,目前的大多数知识图谱表示学习专注于独立地处理三元组中的实体和关系,因此无法捕获围绕三元组的邻域全局的隐藏信息;此外大多数方法还忽视了知识图谱中心实体的多关系邻域异质性属性以及高阶连接结构信息,导致无法捕获实体更准确的语义表示。本文针对上述的两个方面的问题,提出了两种新的知识图谱表示学习方法,主要的研究工作如下所示:(1)针对以往的知识图谱嵌入方法没有考虑中心实体邻域的全局信息,提出了一种端到端的新的知识图谱补全方法图自编码注意力网络(GAEAT),它可以同时编码三元组中实体和关系的特征。具体地说,该模型通过扩展图注意力网络构建了一个三元组自编码器来同时捕获实体和关系的潜在表示。为了证明提出的模型的有效性,在两个真实的公开数据集上评估GAEAT。实验结果表明,GAEAT在知识图谱补全任务方面优于当时现有的知识图谱嵌入模型,从而验证了GAEAT模型算法的有效性。(2)考虑到知识图谱的中心实体节点邻域的异质性和高阶连通性属性,提出了一种新的知识图谱嵌入方法:对比多关系图神经网络知识图谱表示学习模型(CMRG),该模型能够封装实体的局部多关系三元组信息和高阶连通性结构的综合信息特征。具体来说,CMRG对多关系的局部邻接和高阶连通性进行对比编码,从而同时获得实体和关系的潜在表示。实验结果表明,CMRG能有效地对知识图谱中的多类型的结构进行建模,在现有的数据集上的链接预测和三元组分类任务上显著优于的最新基准方法。
基于实体语义和邻接信息的知识图谱补全方法研究
这是一篇关于表示学习,实体语义,邻接信息,链接预测,三元组分类的论文, 主要内容为知识图谱采用统一结构化的方式对真实世界的丰富语义进行表示,能够高效的对事实知识进行管理和分析。目前,知识图谱在信息检索、智能问答和信息抽取等任务中起到了重要的作用,尽管知识图谱中含有海量的三元组,但是仍然存在不完整的情况,如何在已有知识图谱中对缺失的事实知识进行发掘和补充受到了研究人员的大量关注。近年来,在进行知识图谱补全方法研究中,主要是利用知识表示学习的方法来完成的,在对知识表示的过程中,会出现事实知识语义表示不准确的问题,根据上述问题,本文从知识表示学习的实体语义信息捕获和邻接信息融合两方面开展了研究。首先,针对当前知识图谱表示学习模型对知识图谱内实体语义表示不准确的问题,提出了基于实体语义信息建模的知识表示学习模型(Learning semantics knowledge graph embeddings,LSKE)。采用平面编码的显式建模方式,通过横纵两部分向量联合对实体语义进行表示。引入语义映射矩阵对当前训练三元组内的实体特定语义进行捕捉;利用知识图谱关系之间存在的相似性,构建共享语义矩阵,不同的实体通过与共享语义矩阵进行运算,保留实体间的共享语义。其次,针对三元组在表示学习的训练过程中,忽略了三元组中实体的邻接信息,会出现稀疏实体的语义表示不完整的问题,提出了融合实体邻接信息的知识表示学习模型(Learning context semantics knowledge graph embeddings,LCSKE),以及在负采样时产生对训练过程无用的负例三元组问题,提出了以LCSKE模型为基础的邻接信息负采样方法(neighborhood negative sampling,NNS)。LCSKE模型是在模型LSKE基础上,增加了融合实体邻接信息的辅助手段,利用实体稀疏度确定邻接实体数量,并利用实体和关系组建邻接信息,通过门机制完成实体邻接信息融合。邻接信息负采样方法是在负采样阶段,利用邻接信息优先构建对模型有帮助的负例三元组。最后,在已公开的FB15k-237等数据集上进行了链接预测和三元组分类实验,利用相应的评价指标,和已有的知识表示学习模型进行对比实验,验证LSKE和LCSKE模型以及算法的有效性。
多视角感知的多媒体知识图谱表示学习研究
这是一篇关于知识图谱表示学习,注意力机制,对比学习,链接预测,三元组分类的论文, 主要内容为知识图谱是一种流行的数据结构,主要用于在下游应用中查询和使用的事实知识的表示。知识图谱通常是由(头实体、关系、尾实体)三元组组成的多关系图,尽管这种三元组在组织结构化的事实方面很有效,但它们潜在的符号特性使得大多数的机器学习算法难以处理。为此,知识图谱表示学习旨在将这些符号化实体和关系嵌入到低维的连续向量空间中,以捕获实体和关系的内在结构信息,其为诸如关系抽取、信息检索、问答系统和推荐系统等不同的知识驱动任务提供了一种高效、系统的解决方案。然而,目前的大多数知识图谱表示学习专注于独立地处理三元组中的实体和关系,因此无法捕获围绕三元组的邻域全局的隐藏信息;此外大多数方法还忽视了知识图谱中心实体的多关系邻域异质性属性以及高阶连接结构信息,导致无法捕获实体更准确的语义表示。本文针对上述的两个方面的问题,提出了两种新的知识图谱表示学习方法,主要的研究工作如下所示:(1)针对以往的知识图谱嵌入方法没有考虑中心实体邻域的全局信息,提出了一种端到端的新的知识图谱补全方法图自编码注意力网络(GAEAT),它可以同时编码三元组中实体和关系的特征。具体地说,该模型通过扩展图注意力网络构建了一个三元组自编码器来同时捕获实体和关系的潜在表示。为了证明提出的模型的有效性,在两个真实的公开数据集上评估GAEAT。实验结果表明,GAEAT在知识图谱补全任务方面优于当时现有的知识图谱嵌入模型,从而验证了GAEAT模型算法的有效性。(2)考虑到知识图谱的中心实体节点邻域的异质性和高阶连通性属性,提出了一种新的知识图谱嵌入方法:对比多关系图神经网络知识图谱表示学习模型(CMRG),该模型能够封装实体的局部多关系三元组信息和高阶连通性结构的综合信息特征。具体来说,CMRG对多关系的局部邻接和高阶连通性进行对比编码,从而同时获得实体和关系的潜在表示。实验结果表明,CMRG能有效地对知识图谱中的多类型的结构进行建模,在现有的数据集上的链接预测和三元组分类任务上显著优于的最新基准方法。
面向知识图谱补全的嵌入模型研究
这是一篇关于知识图谱嵌入,多视角学习,相似性负采样,链接预测,三元组分类的论文, 主要内容为随着大数据时代的到来,知识的存储与表示变得尤为重要。知识图谱是知识表示最有效的方式之一,被广泛的应用于智能搜索、智能问答等智能化应用。虽然,现有知识图谱的规模已经十分庞大,但其距离达到知识的完备状态依旧十分遥远。知识图谱的完备程度将直接影响智能化应用的性能好坏。为此,知识图谱补全技术备受关注,已经成为当前的一个研究热点。知识图谱嵌入旨在利用连续的、稠密的、低维的向量来表示知识图谱中的实体和关系,以便使用低维向量进行知识的推理和补全。近年来,基于翻译的模型表现出强大的可行性和鲁棒性,在知识图谱补全任务中实现了最先进的性能。但是现有翻译模型仍存在知识表示不够精确、负例三元组质量较低等不足,为了克服这些不足本文提出了MvTransE与TransE-SNS模型。本文主要研究内容如下:(1)本文提出了一种多视角学习的嵌入模型MvTransE。该模型先从实体的语义和结构角度生成多个平行子图。然后将原始的知识图谱和子图分别嵌入到全局视角空间和局部视角空间。最后利用多视角融合策略整合关系事实的多视角表示。MvTransE解决了现有模型的两个不足之处。第一,TransE、TransH等模型侧重于从全局出发,学习关系事实的全局表示,这样不能区别地学习各种类型的事实。特别是,它造成实体和关系在向量空间中的拥塞,从而降低了实体和关系向量的表示精度。第二,puTransE采用多个平行空间来学习局部事实,它损害了原始知识图谱的全局事实,从而降低了简单关系事实的学习能力。大量实验结果表明,MvTransE取得了最先进的性能。(2)本文提出了一种相似性负采样策略用于生成高质量的负例三元组。该策略先通过K-Means聚类算法将所有实体划分为多个簇。然后从正例三元组中头实体所在的簇中选择一个实体替换头实体,并以类似的方法替换尾实体。我们将相似性负采样策略与TransE相结合得到TransE-SNS。由于相似性负采样策略解决了TransE在训练中会生成大量的低质量负例三元组问题,提高了负例三元组的质量。大量实验结果表明,TransE-SNS的性能相较于TransE具有显著地提升。
基于BERT与知识校验的中文实体关系抽取
这是一篇关于关系抽取,预训练语言模型,命名体识别,远程监督,三元组分类的论文, 主要内容为实体关系抽取是指从自然语言文本中抽取形如(客体,关系,主体)的实体关系三元组,旨在使机器具备从海量文本中自动构建知识的能力;另一方面,预训练语言模型在很多自然语言处理任务上取得了很好的效果。本文工作结合深度双向转换器编码器表示(BERT:Bidirectional Encoder Representations from Transformers),提出了两种解决多关系多实体,中文模式(schema)约束的实体关系抽取的方法。首先本文提出了先关系后实体的层次抽取方案。这是一个两阶段流水线模型,在第一阶段,通过BERT编码器进行关系多标签分类任务;在第二阶段,使用上一阶段预测的关系标签作为先验信息与原始文本拼接输入BERT进行实体识别,采用序列标注方法预测实体标签实现三元组抽取,最后得到实体与关系的匹配三元组。同时借鉴多头选择的思想提出了基于多头选择的联合抽取方案,这是一个端到端的方法,联合实现关系抽取与实体抽取。模型使用BERT作为编码层,后接条件随机场(CRF:conditional random field)用于实体命名体识别任务,最后通过多头选择方法预测输入词序列每个词最有可能的对应头向量和对应关系标签。在SKE中文信息抽取数据集上,通过知识蒸馏和模型集成,上述两种方法在F1指标上对于基线模型有近10个百分点的提升。最后,文章创新性地提出了结合知识库先验信息的知识校验方法。一般的实体关系抽取只利用了目标语料本身的信息,却忽视了知识库中的大量先验信息,如知识库的局部拓扑结构,知识库实体关系的分布信息等。模型第一步借鉴远程监督思想,补充模型未预测出但存在于训练集的三元组;第二步,将筛选高质量三元组任务转换为三元组二分类任务,判断三元组为真的置信度。模型使用XGBoost作为分类器,构造了基于知识库实体关系条件分布SDValidate,基于知识嵌入Trans E三元组评分,深度模型三元组置信度得分,排名等多个特征,最终使模型在F1提升2到4个百分点。同时,采用SHAP值解释了模型的特征重要性。综上所述,本文提出了两种基于BERT预训练语言模型解决多关系多实体抽取任务,同时设计了知识校验模块用于三元组补充与筛选。通过对比实验验证了方法的有效性与普适性,可以运用于问答系统,推荐系统等多个领域中。
融合外部知识的中文实体关系抽取方法研究
这是一篇关于实体关系抽取,外部知识,关系导向,三元组分类的论文, 主要内容为从非结构化文本中提取实体关系三元组,是自然语言处理中的一项基础任务,对构建知识图谱具有重要意义。研究者一方面尝试在模型中加入有益的外部知识,丰富文本表达的信息,另一方面不断简化模型构架,以期降低模型运行的时空复杂度,从抽取的准确率和性能两方面提升实体关系抽取的效果。然而仍存在外部知识利用不充分、模型构造复杂等问题,令三元组抽取仍然是自然语言处理领域的研究热点。由此,本文开展了融合外部知识的中文实体关系三元组抽取方法研究,主要工作如下:(1)中文实体关系抽取多以字符序列处理文本,存在字符语义表征不足、长字符序列语义遗忘等问题,为此提出了融合依存句法信息的关系导向型抽取方法。输入层以字符序列和基于同义词表示的词序列为输入;编码端用长短时记忆网络进行文本编码,并加入全局依存信息,用于产生关系门的表示;解码端加入依存类型信息,并在关系门的作用下,用双向长短时记忆网络解码得到实体关系三元组。本文方法在San Wen、Fin RE、Du IE、IPRE中文数据集上的F1值分别较基线方法提高5.84%、2.11%、2.69%和0.39%。消融实验表明,提出的全局依存信息和依存类型信息表示方法均可提升抽取性能,对长句和远距离实体的抽取性能也稳定地优于基线方法。(2)现有联合抽取模型忽略了三元组各部分间的强关联性,为此,在前述工作的基础上,提出了融合拼音、字形信息的实体关系三元组分类方法。该方法的具体流程是文本首先经中文预训练模型Chinese BERT处理,输出的文本向量包含丰富的上下文和字形、拼音信息,然后经三元组分类算法SETC确认当前三元组是否正确,在此过程中,与提前标注的三元组标签比对,不断修正模型里的参数。本文方法相较于方法(1)分别提高了0.58%、0.51%、0.69%、0.26%,相关实验表明,提出的三元组分类方法不仅获取了三元组间的丰富交互,同时也保持了模型计算效率高、易于训练的优势。总体来看,本文的研究基于不同视角融入外部知识实现对三元组的抽取,下一步将考虑融合其它类型的外部知识,且选取更轻便、性能更优的抽取模型。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码导航 ,原文地址:https://m.bishedaima.com/lunwen/49253.html