翻译模型的负样生成方法研究
这是一篇关于知识表示,知识图谱,翻译模型,负样本的论文, 主要内容为知识表示学习的目标是将知识图谱中的实体和关系表示成稠密低维的向量。目前翻译模型是知识表示学习的代表性模型。基于翻译规则的模型通过优化成对排序函数使得正样本与负样本尽量分离。优化目标决定了翻译模型的训练过程离不开负样本参与,因此负样本的质量对模型训练起到非常重要的作用。然而已有的工作很少考虑负样本的生成策略,大部分基于翻译规则的模型在训练时采用随机替换事实三元组的头尾实体得到负样本,这种负样本生成方法会得很多到低质量的负样本,导致模型收敛速度变慢;并且现有的负样本生成策略均未考虑知识图谱中潜在的噪音和知识图谱本身所具有的社区结构信息。为解决上述问题,本文主要做了如下工作:(1)提出一种基于置信度的负样本生成策略。在带有噪音的知识图谱中提出了负样本置信度概念,在此基础上,进一步提出了一种考虑置信度的负样本生成方法,然后将这种负样本生成策略用于知识图谱中的噪音检测,在带有不同噪音比率的标准数据集中取得了较高的表示模型精度。(2)提出基于社区结构的负样本生成策略。即针对实体稠密的社区与实体稀疏的社区,分别设计不同的负样本选择策略,实验验证了该策略的有效性。
知识图谱中语义路径组合关系的推理算法研究
这是一篇关于知识图谱,关系推理,翻译模型,强化学习,RNN的论文, 主要内容为随着近年来互联网中数据的海量增长以及人工智能的发展,对各种异构数据的处理能力也在不断的提高,知识以及知识间的关系逐渐受到行业发展的重视。知识图谱的产生使得互联网中的数据具有了较好的语义处理能力,但目前知识图谱仍处于正在发展的过程,远未达到完善的程度,知识图谱中虽包含了上亿条事实数据,但对不常用到的一些较冷门的知识尚未完全覆盖到,同时,仍存在部分可以通过简单的推理得到的知识也未被标识出。因此进行知识图谱的补全具有重要的意义。而目前对知识图谱补全的工作大都集中于对实体对间直接关系的补全,本文主要针对短路径中存在的部分事实关系的补全,并提出了一种知识图谱中语义路径组合关系的推理算法(简称CSPRRA)。针对目前知识图谱中隐含关系的推理问题本文工作如下:(1)针对以往知识推理的过程大都基于图结构进行,计算成本较高且扩展性能较差等问题,本文受知识表示学习的启发,利用Bordes A等人提出的翻译模型,将知识图谱嵌入到低维向量空间中进行计算,从而提高计算效率以及扩展性。(2)为挖掘知识图谱中路径上的信息,就需要获取到两个实体间存在的某种可达的路径信息,在本文中,提出了一种基于强化学习的路径发现模型,该模型利用了 Agent和环境的交互过程,在奖励函数的机制下,学习发现两个实体间的路径。为后续利用路径信息推理关系做铺垫。(3)在得到两个实体间可达的路径信息后,为更好的利用路径上的实体和关系,本文利用RNN模型可以处理任意长度序列问题的特性,将所得到的实体和关系的路径作为RNN的输入,经过迭代计算,最后将会得到一个组合了路径信息的结果向量,将该结果向量与目标关系向量进行相似度计算,最后通过相似度值来确定关系。最后,为了验证本文提出算法的有效性,对该算法进行了实验和分析,结果表明该算法有效的提高了结果的准确性和精确性。
面向高铁运维领域的嵌入实体对齐技术研究与实现
这是一篇关于嵌入实体对齐,高铁运维领域,文本匹配,图卷积网络,翻译模型的论文, 主要内容为随着我国高铁动车组的数目越来越多,运营里程越来越长,高铁已成为人们出行的主要工具之一。高铁的运行安全一直受到有关部门的高度重视,这对保障高铁安全、高效运行的运维服务系统提出了更高要求。现代信息技术支撑我国高铁运维向数字化和智能化转变。在高铁运维智能化建设中,知识图谱等先进技术的应用已经开始。从大量的运维数据(如:维护手册、技术说明书、维修记录等)中抽取知识,并构成知识图谱,这对于提升运维系统的智能化水平有重要的意义。但由于高铁运维相关的系统建设时间、采用的标准不同,难免会出现对同一物理实体表述不完全一致的问题,这导致从这些不同来源的数据抽取出的三元组集中存在对齐问题。针对上述问题,本文以动车组关键部件——牵引电机为研究对象,定义了牵引电机运维数据中的实体类和关系类,由此构建了三元组集,在此基础上提出了适应于高铁智能运维的嵌入实体对齐算法。本文主要研究工作如下:(1)在分析牵引电机运维数据的基础上,本文定义了7种实体类和6种关系类,为生成三元组集提供依据。为适应对齐场景,本文选取两个不同来源的数据集,形成两个三元组集。在此基础上构建了用于训练和测试的实体对齐数据集。(2)针对不同三元组集中相同语义的实体表述不一致的问题,本文使用基于Bert模型的文本匹配模型得到实体的通用语义。为弥补通用语义信息的不足,本文提出两种用于补充结构信息与对齐信息的嵌入实体对齐模型,它们分别是Trans H_align_Bert模型和RGCN_align_Bert模型。对提出的两种嵌入实体对齐模型进行对齐测试集上的命中率测试,结果证实RGCN_align_Bert模型性能更好。(3)将提出的RGCN_align_Bert模型集成到知识图谱构建工具中。在解决动车组运维知识图谱构建过程中的实体对齐问题中,相比只获取通用语义的基于Bert的文本匹配模型,RGCN_align_Bert模型表现出更好的性能。
结合上下文信息的知识图谱表示学习方法
这是一篇关于知识图谱表示学习,翻译模型,神经网络,注意力机制,上下文信息的论文, 主要内容为知识图谱是当今大数据时代至关重要的信息数据库,未来将在零售、供应链、金融等领域持续发挥信息的检索和推理作用。知识图谱虽然已经对知识信息进行了结构化的表示,但在实际生产应用中如何利用这些信息仍然是一个巨大的挑战。而知识图谱表示学习为知识图谱实际应用信息的使用提供了重要的解决途径。知识图谱表示学习技术逐渐成为知识图谱应用到生产领域的关键一环,可以应用于推荐系统、知识问答、自然语言理解等众多领域。大多数现有的知识图谱表示学习方法都将目光集中于知识图谱中现有的三元组内部所蕴含的信息。近年来,许多研究显示,知识图谱中实体之间的上下文信息,诸如实体间隐藏的联系、邻域信息、路径信息等都可以对知识图谱表示学习任务起到十分可观的作用。本文着重对实体间隐藏的联系和邻域信息进行了研究和实验,探讨了它们在知识图谱表示学习的中的影响。对于实体间隐藏的联系,我们提出一种结合注意力机制的知识图谱表示学习翻译模型。我们在添加非线性映射的Trans D的基础上,将实体与其他实体之间使用注意力机制联系起来,进一步增强了模型的效果。此外我们的模型复杂度相对神经网络模型较低,但是依然具有不差于神经网络模型的效果。对于邻域信息,我们提出一种结合邻域信息的表示学习神经网络模型。我们在神经网络模型的基础上,添加了邻域信息通道。我们使用随机游走技术获得实体的邻域实体节点序列,并将其通过卷积神经网络分析特征信息。然后我们将邻域信息通道和原本的三元组信息通道结合起来,生成最终的预测结果,并通过实验证明了邻域信息在知识图谱表示学习中的作用。
基于过滤的规则进行数据增强的知识图谱嵌入
这是一篇关于知识图谱,知识图谱嵌入,翻译模型,规则学习的论文, 主要内容为知识图谱如今已被广泛应用于个性化推荐系统、智能问答系统等领域,由于知识图谱的完整性极大地影响了我们后续对知识图谱的使用,而且知识图谱中的事实信息往往是不完整的,实体之间的一些显而易见的关系在原有的知识图谱中并不存在,因此我们需要对知识图谱进行补全。在进行知识图谱补全的方法中,表示学习方法占据了主流的地位,而在表示学习方法中,翻译模型是其中的代表模型,基于翻译模型的表示学习方法具有很高的可扩展性,且可以有效地评测实体之间复杂的语义信息和关系。数据的丰富程度对于表示学习模型来说至关重要,但已有知识图谱中往往存在了大量的稀疏实体,实体间的联系并不紧密,这就导致了表示学习模型无法准确地补全带有稀疏实体的三元组。传统的方法通过将规则学习的方法与表示学习的方法进行结合来缓解这一问题,但要求表示学习的模型需要满足线性映射假设,而翻译模型并不满足这一假设。为了解决这一问题,我们提出使用一种自底向上的规则学习算法来与翻译模型进行结合以增强翻译模型的表达能力的方法,即通过使用规则学习算法来生成增强数据以增强翻译模型。使用这种自底向上的规则学习算法时,其产生的规则置信度的定义也随之不同,当我们在进行三元组推断时,高置信度的规则产生的三元组大部分已经存在于原知识图谱中了,仅有少部分新三元组为有效三元组,而进行数据增强时,我们需要保证增强数据的数量。这一问题的存在使得我们不能简单地指定一个规则置信度的阈值来筛选规则和产生新三元组,为了解决这一问题,我们提出了一种基于规则置信度的规则筛选方法。同时,由于知识图谱中存在的稀疏实体与稀疏关系导致了表示学习模型对包含稀疏实体或稀疏关系的三元组的学习效果不足够好,我们又提出了着重增强包含稀疏实体或稀疏关系的三元组的方法。本文的主要贡献如下:(1)为了增强翻译模型链接预测的准确性,提出了使用自底向上的规则学习算法来产生高质量的规则,并使用中间模块来推断生成可靠的三元组,以增强翻译模型的表达能力。(2)鉴于自底向上的规则学习算法中对于规则置信度的定义和数据增强对于数据数量的要求,为了在产生新三元组的质量与数量之间达到一个平衡,我们对传统方法进行了改进,不像传统方法那样简单地规定一个置信度阈值来筛选规则,而是根据规则置信度降序遍历规则。(3)知识图谱中也存在稀疏关系,稀疏关系的存在使得传统模型对稀疏关系的链接预测效果不够理想,我们在已有方法着重增强包含稀疏实体三元组的基础上,同时增强包含稀疏关系的三元组。本文分别在WN18、FB15k、WN18RR、FB15k-237数据集上和多个模型上应用了本文提出的两种改进方法,并与不使用这两种方法的多个模型进行了对比。结果表明,这两种方法在三种类型的链接预测评价指标下整体优于原模型,一定程度上增强了翻译模型的表达效果。
基于置信度的知识图谱表示学习研究
这是一篇关于知识图谱补全,知识表示学习,实体类型,噪声,置信度,翻译模型的论文, 主要内容为随着人工智能技术的不断发展,知识图谱(Knowledge Graph)已成为结构化知识驱动智能应用的核心数据支撑。知识图谱本质是一种语义网络(Semantic Web),其节点代表实体(Entity)或者概念(Concept),边代表实体或概念之间的语义关系(Relationship)。知识图谱包含大量结构化知识,形如三元组:<左实体,关系,右实体>,例如:<奥巴马,出生于,夏威夷>;二元组:<实体,实体类型>,例如:<奥巴马,人物>。知识图谱帮助机器理解知识语义信息,广泛应用在语义搜索(Semantic Search)、问答系统(Question Answering)、智能客服(Intelligent Customer Service)等智能应用。然而,由于知识图谱自动构建中知识抽取技术的准确度有限,导致知识图谱面临非常严重的噪声问题,如:知识三元组噪声、实体类型标注噪声。因此,针对噪声的知识图谱建模技术具有重要的应用和研究价值。知识图谱表示学习(Representation Learning)作为知识图谱的核心技术已经成为知识图谱领域的研究重点。表示学习是一种基于机器学习的方法,通过构建样本对象的语义模型,将样本对象嵌入到向量空间,用向量来表示样本对象,从而捕捉对象的语义信息或本质几何结构,在嵌入式向量空间中实现数据的分类、聚类或者推理等。然而,传统知识图谱表示学习模型面临两大问题:(1)它们忽略噪声问题,存在不足,会导致后续应用系统出现错误;2)它们只关注知识图谱关系预测,忽略知识图谱实体类型推理。针对以上问题,本文提出了一种基于置信度的表示学习模型(Trust E),旨在解决噪声环境下实体类型表示学习问题,该模型能检测出现有知识图谱中可能存在的实体类型噪声,并实现实体类型推理。具体来讲,我们首先考虑到实体和实体类型语义上并不相同并且存在复杂关系,所以我们利用投影矩阵将实体和实体类型投影到不同的语义空间,然后利用构造的二元组(实体,实体类型)置信度来提升实体类型的表示学习。为了让置信度更具普适性,本文只考虑知识图谱的内部结构信息,并提出两种置信度:(1)基于二元组局部信息的置信度(Local tuple Trustworthiness,LT);(2)基于与二元组相关的三元组全局信息置信度(Global triple Trustworthiness,GT)。最后,本文在两个真实世界数据集FB15k ET和YAGO43k ET中做了实体类型噪声检测、实体类型预测、实体类型分类三个实验,实验结果表明Trust E模型的有效性明显优于其他最新基准模型,验证了Trust E模型在噪声环境下能学习到更好的实体类型表示,并实现实体类型推理。
基于过滤的规则进行数据增强的知识图谱嵌入
这是一篇关于知识图谱,知识图谱嵌入,翻译模型,规则学习的论文, 主要内容为知识图谱如今已被广泛应用于个性化推荐系统、智能问答系统等领域,由于知识图谱的完整性极大地影响了我们后续对知识图谱的使用,而且知识图谱中的事实信息往往是不完整的,实体之间的一些显而易见的关系在原有的知识图谱中并不存在,因此我们需要对知识图谱进行补全。在进行知识图谱补全的方法中,表示学习方法占据了主流的地位,而在表示学习方法中,翻译模型是其中的代表模型,基于翻译模型的表示学习方法具有很高的可扩展性,且可以有效地评测实体之间复杂的语义信息和关系。数据的丰富程度对于表示学习模型来说至关重要,但已有知识图谱中往往存在了大量的稀疏实体,实体间的联系并不紧密,这就导致了表示学习模型无法准确地补全带有稀疏实体的三元组。传统的方法通过将规则学习的方法与表示学习的方法进行结合来缓解这一问题,但要求表示学习的模型需要满足线性映射假设,而翻译模型并不满足这一假设。为了解决这一问题,我们提出使用一种自底向上的规则学习算法来与翻译模型进行结合以增强翻译模型的表达能力的方法,即通过使用规则学习算法来生成增强数据以增强翻译模型。使用这种自底向上的规则学习算法时,其产生的规则置信度的定义也随之不同,当我们在进行三元组推断时,高置信度的规则产生的三元组大部分已经存在于原知识图谱中了,仅有少部分新三元组为有效三元组,而进行数据增强时,我们需要保证增强数据的数量。这一问题的存在使得我们不能简单地指定一个规则置信度的阈值来筛选规则和产生新三元组,为了解决这一问题,我们提出了一种基于规则置信度的规则筛选方法。同时,由于知识图谱中存在的稀疏实体与稀疏关系导致了表示学习模型对包含稀疏实体或稀疏关系的三元组的学习效果不足够好,我们又提出了着重增强包含稀疏实体或稀疏关系的三元组的方法。本文的主要贡献如下:(1)为了增强翻译模型链接预测的准确性,提出了使用自底向上的规则学习算法来产生高质量的规则,并使用中间模块来推断生成可靠的三元组,以增强翻译模型的表达能力。(2)鉴于自底向上的规则学习算法中对于规则置信度的定义和数据增强对于数据数量的要求,为了在产生新三元组的质量与数量之间达到一个平衡,我们对传统方法进行了改进,不像传统方法那样简单地规定一个置信度阈值来筛选规则,而是根据规则置信度降序遍历规则。(3)知识图谱中也存在稀疏关系,稀疏关系的存在使得传统模型对稀疏关系的链接预测效果不够理想,我们在已有方法着重增强包含稀疏实体三元组的基础上,同时增强包含稀疏关系的三元组。本文分别在WN18、FB15k、WN18RR、FB15k-237数据集上和多个模型上应用了本文提出的两种改进方法,并与不使用这两种方法的多个模型进行了对比。结果表明,这两种方法在三种类型的链接预测评价指标下整体优于原模型,一定程度上增强了翻译模型的表达效果。
中文历史人物亲属关系自动问答研究
这是一篇关于亲属关系,知识图谱,翻译模型,关系推理,问答系统的论文, 主要内容为在人们对快速、准确获取信息的需求下,搜索引擎和检索方式不断地更新迭代。一方面,伴随着数字化产业的蓬勃发展,产生出了越来越多有待开发的数字资源。另一方面,伴随着自动问答技术的发展,用户已不再满足于关键字匹配的查询,开始寻求更简洁、准确的检索引擎。中国历代人物传记资料库就是数字化产业的冰山一角,如何将数字化的产物倾注智能问答的灵魂,使得合成的产品更好地为用户服务,本文进行了初步的研究与探索。本文研究了推理补全缺失关系的方法,设计并实现了一个基于知识图谱的人物亲属关系自动问答系统,解决了搜索引擎不支持自然语言检索,返回结果不简洁的问题。本文的主要工作如下:第一,研究了知识库表示学习中的翻译模型,通过现有多种翻译模型的对比实验,找出一种合适的知识库表示方法,实现了历史人物亲属关系自动推理,有效解决了中国历代人物传记资料库中人物亲属关系大量缺失的问题。之后对比分析了人物亲属关系推理补全前后的结果,以及产生推理错误可能的原因。第二,改进了翻译模型。翻译模型是将知识库中的实体和关系转化为低维向量的方法。本文在现有翻译模型的基础上,通过改进负采样的方式融合实体特征,使得实体和关系向量在空间上分布更加合理,更加具有表现力,通过实验证明此方法能有效提高关系推理的准确性,其可行性在中国历代人物传记资料数据中得到有效验证。第三,利用改进了的翻译模型方法,设计并实现了一个中文历史人物亲属关系自动问答系统。该系统以中国历代人物传记资料库(CBDB)为语料来源,将存储于access关系型数据库中的中文历史人物亲属关系,转化为通过Neo4j图数据库存储的人物亲属关系知识图谱,便于可视化展示与分析人物关系。针对用户提出的自然语言的问题,本系统利用自然语言处理相关技术生成问题三元组,然后转换为Cypher查询语句在图数据库中查询、或利用人物关系推理返回问题答案。
基于过滤的规则进行数据增强的知识图谱嵌入
这是一篇关于知识图谱,知识图谱嵌入,翻译模型,规则学习的论文, 主要内容为知识图谱如今已被广泛应用于个性化推荐系统、智能问答系统等领域,由于知识图谱的完整性极大地影响了我们后续对知识图谱的使用,而且知识图谱中的事实信息往往是不完整的,实体之间的一些显而易见的关系在原有的知识图谱中并不存在,因此我们需要对知识图谱进行补全。在进行知识图谱补全的方法中,表示学习方法占据了主流的地位,而在表示学习方法中,翻译模型是其中的代表模型,基于翻译模型的表示学习方法具有很高的可扩展性,且可以有效地评测实体之间复杂的语义信息和关系。数据的丰富程度对于表示学习模型来说至关重要,但已有知识图谱中往往存在了大量的稀疏实体,实体间的联系并不紧密,这就导致了表示学习模型无法准确地补全带有稀疏实体的三元组。传统的方法通过将规则学习的方法与表示学习的方法进行结合来缓解这一问题,但要求表示学习的模型需要满足线性映射假设,而翻译模型并不满足这一假设。为了解决这一问题,我们提出使用一种自底向上的规则学习算法来与翻译模型进行结合以增强翻译模型的表达能力的方法,即通过使用规则学习算法来生成增强数据以增强翻译模型。使用这种自底向上的规则学习算法时,其产生的规则置信度的定义也随之不同,当我们在进行三元组推断时,高置信度的规则产生的三元组大部分已经存在于原知识图谱中了,仅有少部分新三元组为有效三元组,而进行数据增强时,我们需要保证增强数据的数量。这一问题的存在使得我们不能简单地指定一个规则置信度的阈值来筛选规则和产生新三元组,为了解决这一问题,我们提出了一种基于规则置信度的规则筛选方法。同时,由于知识图谱中存在的稀疏实体与稀疏关系导致了表示学习模型对包含稀疏实体或稀疏关系的三元组的学习效果不足够好,我们又提出了着重增强包含稀疏实体或稀疏关系的三元组的方法。本文的主要贡献如下:(1)为了增强翻译模型链接预测的准确性,提出了使用自底向上的规则学习算法来产生高质量的规则,并使用中间模块来推断生成可靠的三元组,以增强翻译模型的表达能力。(2)鉴于自底向上的规则学习算法中对于规则置信度的定义和数据增强对于数据数量的要求,为了在产生新三元组的质量与数量之间达到一个平衡,我们对传统方法进行了改进,不像传统方法那样简单地规定一个置信度阈值来筛选规则,而是根据规则置信度降序遍历规则。(3)知识图谱中也存在稀疏关系,稀疏关系的存在使得传统模型对稀疏关系的链接预测效果不够理想,我们在已有方法着重增强包含稀疏实体三元组的基础上,同时增强包含稀疏关系的三元组。本文分别在WN18、FB15k、WN18RR、FB15k-237数据集上和多个模型上应用了本文提出的两种改进方法,并与不使用这两种方法的多个模型进行了对比。结果表明,这两种方法在三种类型的链接预测评价指标下整体优于原模型,一定程度上增强了翻译模型的表达效果。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设导航 ,原文地址:https://m.bishedaima.com/lunwen/49213.html