烟草专卖知识图谱推理技术研究
这是一篇关于知识图谱,关系预测,图注意力神经网络,烟草的论文, 主要内容为知识图谱以(主,谓,宾)三元组的形式描述知识,如(张三,国籍,中国)表示张三是中国人的事实。在实际数据中,大量实体可以通过若干种关系紧密关联在一起,从而形成包含多种关系的有向图。但由于数据的不完备性,目前所构建的知识图谱肯定都存在知识缺失的现象,包含实体缺失和关系缺失。以Freebase为例,将近三分之一的人物对象不存在双亲信息。因此,基于知识图谱的推理是当前知识图谱的重点研究方向之一。所谓基于知识图谱的推理,是在三元组的基础上,通过演绎、类比和归纳等方法获得新的知识,并且满足语义。它不仅能够补全缺失的关系或实体,向图谱中添加新的三元组信息,而且还能修复错误的知识、验证已有事实是否正确。所以说,通过推理,可以提升已有知识图谱的覆盖率和正确性。本文基于烟草知识图谱,研究完善和补充烟草专卖知识图谱的预测方法。论文的主要贡献如下:1图神经网络与推理算法结合本文基于图神经网络,提出一种有别于传统嵌入算法的推理模型,该模型通过对图数据卷积推理,充分利用了邻接节点的特征,更加全面准确地表示了节点的特征;2烟草专卖知识图谱构建本次研究紧密结合烟草专卖业务需求,构建烟草专卖行业垂直知识图谱,并通过图注意力的推理模型,实现图谱中知识的补全,推动了烟草专卖行业智能化发展;3知识图谱推理应用的拓展首次基于烟草专卖行业的知识图谱进行推理算法研究,并在此基础上设计和实现了以零售户和卷烟为中心实体的信息检索与推荐系统。是烟草专卖行业信息化一大创新,更是知识图谱应用领域的扩展。
基于注意力机制的知识图谱嵌入技术研究与应用
这是一篇关于知识表示,知识图谱嵌入,神经网络,多注意力机制,图注意力神经网络的论文, 主要内容为知识图谱属于语义型知识库,通过三元组表示结构化知识。三元组由头实体、关系和尾实体构成,其中头实体通过关系与尾实体连接。随着计算机技术发展,知识图谱广泛应用于自然语言处理、机器学习、生物、工业、化学等领域。虽然知识图谱成为研究热点,但目前知识图谱仍面临以下问题:首先知识图谱在数据库中以符号形式存储,无法直接应用于各类计算任务中;其次大部分知识图谱并不完整,部分实体之间关系连接缺失。为此,知识图谱嵌入技术应运而生。知识图谱嵌入技术是知识图谱应用的基础,该技术将知识图谱中的关系和实体投射到向量空间中,用来获得实体和关系的向量表示。这些数字化向量表示可以直接应用于其他下游任务,还可以对知识图谱进行链接预测,补全实体之间缺失的关系。归结于神经网络强大的学习能力,基于神经网络的知识图谱嵌入研究取得显著成果,但大部分模型仅考虑提取实体和关系之间交互特征,忽略了三元组内部(头实体、关系和尾实体之间的)相关性影响。虽然现有基于注意力机制的模型计算了三元组的相关性,但它们的效果并不理想。因此,基于上述问题,本文的研究内容如下:(1)本文提出一种基于多注意力机制的知识图谱嵌入模型MAKE,该模型使用一种经过改进的多注意力机制,通过计算三元组内部相关性来提取三元组矩阵交互特征。同时,为充分发挥多注意机制性能,MAKE使用一种可训练批量标准化方法和一种新型复合损失函数来提高模型学习能力。本文将MAKE在FB15K-237和WN18RR标准数据集上进行了链接预测实验,实验结果表明该模型各项指标均高于现有模型。此外,通过消融实验的验证,进一步证明了MAKE中所采用的方法的有效性。在MAKE算法基础上,使用图注意力神经网络聚合知识图谱图结构语义信息,设计并实现基于图注意力神经网络的编码器方法GAT-MAKE。GAT-MAKE相比于MAKE,不再聚焦于单个三元组的特征信息,而是通过计算节点间相关性聚合节点信息。本文将GATMAKE在FB15K-237和WN18RR标准数据集上进行了链接预测实验,实验结果表明该方法性能优于现有使用图神经网络作为编码器的模型。(2)为使知识图谱得到充分应用,本文设计并实现知识图谱管理平台。平台除实现基本的知识图谱可视化功能外,还分为图谱构建、图谱编辑、图谱搜索和图谱嵌入四个模块。在图谱构建模块中,用户可以根据构建知识图谱的规模,选择不同的功能完成知识图谱构建。在图谱编辑中,用户可使用图形化界面操作方式或知识图谱语言操作方式,对图谱中的节点和连接进行添加、修改和删除操作。在图谱搜索中,用户即可以直接搜索实体或关系,也可以通过知识问答方式完成问答搜索。在图谱嵌入中,用户可以使用链接预测功能补全图谱,或者导出知识图谱嵌入向量应用于其他深度学习任务。
烟草专卖知识图谱推理技术研究
这是一篇关于知识图谱,关系预测,图注意力神经网络,烟草的论文, 主要内容为知识图谱以(主,谓,宾)三元组的形式描述知识,如(张三,国籍,中国)表示张三是中国人的事实。在实际数据中,大量实体可以通过若干种关系紧密关联在一起,从而形成包含多种关系的有向图。但由于数据的不完备性,目前所构建的知识图谱肯定都存在知识缺失的现象,包含实体缺失和关系缺失。以Freebase为例,将近三分之一的人物对象不存在双亲信息。因此,基于知识图谱的推理是当前知识图谱的重点研究方向之一。所谓基于知识图谱的推理,是在三元组的基础上,通过演绎、类比和归纳等方法获得新的知识,并且满足语义。它不仅能够补全缺失的关系或实体,向图谱中添加新的三元组信息,而且还能修复错误的知识、验证已有事实是否正确。所以说,通过推理,可以提升已有知识图谱的覆盖率和正确性。本文基于烟草知识图谱,研究完善和补充烟草专卖知识图谱的预测方法。论文的主要贡献如下:1图神经网络与推理算法结合本文基于图神经网络,提出一种有别于传统嵌入算法的推理模型,该模型通过对图数据卷积推理,充分利用了邻接节点的特征,更加全面准确地表示了节点的特征;2烟草专卖知识图谱构建本次研究紧密结合烟草专卖业务需求,构建烟草专卖行业垂直知识图谱,并通过图注意力的推理模型,实现图谱中知识的补全,推动了烟草专卖行业智能化发展;3知识图谱推理应用的拓展首次基于烟草专卖行业的知识图谱进行推理算法研究,并在此基础上设计和实现了以零售户和卷烟为中心实体的信息检索与推荐系统。是烟草专卖行业信息化一大创新,更是知识图谱应用领域的扩展。
基于GNN的分布式知识图谱嵌入关键技术研究
这是一篇关于知识图谱嵌入,图注意力神经网络,数据并行的论文, 主要内容为知识图谱嵌入任务由简单的翻译模型发展到如今基于各种复杂的神经网络方法,在模型性能大幅提高的同时,模型的参数也越来越多。以现如今性能最好的图神经网络模型为例,其训练的时间、占用的空间资源要数十倍于最经典的TransE翻译模型。对当前复杂的知识图谱嵌入模型进行优化,加快模型训练速度,减少模型占用显存,目前已经在知识图谱领域成为了一个新的热点问题。针对图神经网络预训练速度较慢,占用显存较高等问题,本文提出了一种基于超图的方法减少图神经网络时空成本,并采用数据并行的分布式计算框架加速图神经网络训练的模型Hyp GAT。本文的主要内容分为三个部分:(1)根据规则将知识图谱中相似的实体聚合在一起形成超边。构造亲和矩阵来衡量超边的质量,并以亲和矩阵为依据进行层次聚类生成超图。(2)用生成的超图来替代原知识图谱,采用图注意力神经网络提取超图的邻域信息。计算超节点的嵌入与所属实体节点嵌入的相似性,以此作为超节点邻域信息与实体的邻域信息相似性。将邻域信息特异化映射至底层知识图谱更新实体与关系嵌入。(3)对知识图谱进行子图划分进一步减少图神经网络对显存的占用,与此同时采用数据并行的方式,以“单程序多数据”为原则设计分布式框架加速图神经网络的训练。最后,本文分别在FB15K-237与WN18RR两个数据集对模型进行链接预测实验,并与多个基线相对比。实验结果表明,本文提出的方法在稠密的知识图谱中可以在降低图神经网络的显存并加快训练的同时,性能与最先进的知识图谱嵌入模型相当。
基于次最优路径的中文嵌套命名实体识别
这是一篇关于嵌套命名实体识别,知识图谱,序列模型,图注意力神经网络,次最优路径的论文, 主要内容为嵌套命名实体识别,是命名实体识别任务的子任务,其主要目的是识别文本中具有嵌套结构的命名实体。使用符合文本特性的序列模型来解决嵌套命名实体问题是常见方案,但是中文嵌套文本数据集较为稀缺,再加上中文本身的语言结构特征,中文实体在文本中缺乏明显边界,这些都极大增加了中文嵌套命名实体识别的难度。如何增强序列模型对于中文字符与词汇之间位置关系的关注力,确定多级层叠中文实体的实际边界,并且在有限数据集和标注下让模型学习到文本特征。本文针对以上问题进行了以下两方面的研究:(1)提出了一种基于位置嵌入和次最优路径的多级结果边界预测中文嵌套命名实体识别方法。首先在嵌入层将嵌套实体位置信息与文本位置信息一同编码生成绝对位置序列,通过关注中文文本中原始的位置信息,深入挖掘嵌套实体与字符之间的关系并且增强嵌套实体与原始文本之间联系;然后,使用排除最优路径的隐藏矩阵配合多层级预测的方式进行嵌套实体的初步识别;最后,在多级预测层计算实体边界的偏移量,重新确定实体边界从而提高中文实体预测准确率。(2)提出了一种基于图注意力网络融合外部知识的嵌套命名实体识别方法。对于原始文本使用jieba分词得到初始的候选嵌套实体,利用知识图谱对候选嵌套实体进行拓展从而获得更多的实体节点;然后将嵌套实体跨度集合与其对应关系通过语言模型生成嵌入表示,分别作为图注意力神经网络的节点和关系输入得到实体关系嵌入;最后将融合了外部知识的实体嵌入与字符嵌入融合来增强模型挖掘深层文本信息的能力。本文将实验模型与常见的序列模型、图结构模型以及Span枚举模型进行了比较,在医疗和日常两种领域数据集上验证模型的有效性。最终结果表明,本文模型在两种领域数据集上的识别效果均优于所选取的基线模型。最后通过不同数据集上样例文本的结果分析和对比,进一步验证了本文提出的模型在识别中文嵌套命名实体和挖掘文本深层特征时,具有较高的性能。
基于异质图神经网络的多文档机器阅读理解方法研究
这是一篇关于机器阅读理解,异质图,图注意力神经网络,注意力机制的论文, 主要内容为机器阅读理解是自然语言处理领域中的重要研究方向,是实现人工智能必须的基础理论和奠基任务,在现实生活中具有广阔的实际应用需求。随着理论研究的深入和应用形式的变化,机器阅读理解任务迎来了在多文档文本中进行复杂阅读推理的新挑战。为了充分利用非结构化文本信息和结构化的知识信息,适应阅读中文字规模不断增长的要求,完成文档间阅读推理的逻辑过程,本文基于图神经网络开展了异质阅读图建立和融合外部知识信息的多文档阅读理解模型的研究。主要内容如下:(1)基于脑神经科学中对脑认知的研究成果,本文研究并提出了一种模仿“祖母细胞”概念的异质图注意力神经网络阅读推理模型ClueReader。首先,通过建立从问句到多文档中的推理实体,再到文档中潜在答案的答案实体链路,提出了线索式的阅读理解模型,以适应在文档集合中实现跨文档全局信息聚合和线性阅读推理的要求。其次,通过改进频率域图神经网络方法,一方面实现了在异质阅读推理图中进行多实体、多关系阅读理解的链路推理和信息选择过程;另一方面创新性地实现了对异质阅读推理图模型在预测时内部信息状态的可视化,为基于图方法的阅读理解模型进行了启发式的解释过程,进一步提升了阅读理解过程的可分析性和可靠性。实验证明ClueReader模型提高了多文档阅读理解任务中答案预测的准确率。(2)针对在封闭域文档中进行阅读理解时实体信息的缺失问题,本文研究并提出了一种应用于分子生物学文本可融合外部结构化知识到图神经网络以增补实体属性的图推理系统模型MedKGQA。首先,通过分析在封闭域分子生物学文献中进行对药物属性的阅读理解后预测药物间反应的任务特性,从外部知识库中收集并创建了“药物—蛋白质靶点”知识图谱。其次,通过知识图谱实体向量化的方法,将图谱中药物和蛋白质靶点属性进行向量嵌入学习,并以药物在人体环境中蛋白质靶点间代谢反应通路为指导,建立了图中药物和蛋白质等实体节点间的有向连接,实现了将多种外部知识对齐和应用于图神经网络的学习过程。实验结果表明,该模型提高了基于文本阅读理解的药物间相互反应预测的准确率,体现了模型架构设计的合理性和有效性,进一步验证了在阅读理解任务中融合外部知识的可行性。此外,该模型为构建其他封闭式领域多文档机器阅读理解任务的架构设计提供了新思路。总之,本文基于图神经网络方法,结合相关深度学习技术,面向开放域和封闭域多文档机器阅读理解的具体任务,分别提出了基于异质图注意力神经网络的多文档机器阅读理解模型ClueReader和MedKGQA,有效地提升了阅读问答的准确率和启发式可解释性,对深入开展基于图方法的阅读理解研究具有一定的理论意义,为促进人工智能的跨领域应用提供了一定的示范效用。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码助手 ,原文地址:https://m.bishedaima.com/lunwen/56139.html