基于图神经网络的关系抽取研究及应用
这是一篇关于知识图谱,关系抽取,依存句法树,注意力机制的论文, 主要内容为随着信息科技的快速发展,自然语言处理技术越来越多的应用在生活的各个方面,例如小爱同学的智能问答、谷歌的知识图谱、百度的搜索引擎等。这些任务无一例外地使用到了信息抽取,信息抽取是后续步骤质量保证的基础。用于提取出句中实体间关联信息的关系抽取,是信息抽取的重要子任务,因此,其正确性对于后续任务的进行有着重要的意义。但由于句子结构复杂、实体众多,如何提高关系抽取的效果一直是学者们重点关注的问题。目前大多数研究的关系抽取任务仍然是以解决二元关系抽取任务为目标,并且多以基于序列的LSTM模型为主,考虑到图神经网络可以更好表征句内节点特征,本文采用基于实体关联注意力的图卷积网络关系抽取模型解决二元和多元关系抽取任务。在研究中发现实体信息和位置信息对关系抽取的效果影响很大,为了进一步提升二元与多元关系抽取正确率,在基于实体关联注意力的图卷积网络关系抽取模型的基础上,提出了多注意力机制融合关系抽取模型以获得更加完备的向量表达。除此之外,在关系抽取任务中,谓语往往起着重要的作用,常常使用依存句法信息来获得实体间的结构依赖关系,但是单一依存句法树的信息比较局限。为解决该问题,也为进一步提高二元和多元关系抽取任务效果,提出了融合多依存句法树特征的多依存句法信息融合关系抽取模型。本文提出的三种算法在Semeval数据集以及电力领域、医疗领域的数据集上均进行了对比实验,结果显示基于多依存句法信息融合关系抽取模型相较于其他算法表现最优。最后将其运用在后续的电力计量知识图谱构建与应用过程。
基于深度学习的自然语言推理算法研究与实现
这是一篇关于深度学习,自然语言推理,图注意力网络,依存句法树,预训练语言模型的论文, 主要内容为自然语言推理是检验自然语言理解能力的基础任务之一。其任务主要是输入提供的句子对(前提和假设),输出句子间的语义关系(蕴含,中立,矛盾)。目前自然语言推理有两个重要研究方向:外部知识引入和结构语义理解,然而这两个方向目前存在一些问题亟待解决。问题一是外部知识引入机制不充分不灵活。先前的方式只是引入了知识图谱中的三元组,而三元组只是知识图谱中相对简单的一种构成单元,而且引入的外部知识方式不是一个单独的网络层,需要做大量的预处理和模型改造工作,这一定程度上限制其适用到其他已有的推理模型上。问题二是自然语言推理模型的结构语义理解能力不足。以往自然语言推理模型在对结构语义能力要求很高的样本子集上测试表现都比较差。最后,将语义推理算法应用到实际场景中也是本论文的面对的一个挑战。针对以上问题本论文提出以下解决方案:(1)针对引入外部知识机制不充分不灵活的问题,本论文提出了一种新型的为NLI模型提供外部知识的机制EDGEGAT(Edge enhanced Graph Attention Networks)。该框架采用图注意力网络对外部知识子图进行网络结构信息嵌入学习,并将推理模型和图网络联合训练,为推理模型实现引入外部知识。同时本论文对图注意力网络改进,增加了计算图中边属性重要性。经在相关自然语言处理数据集上验证,EDGEGAT 比之前外部知识引入机制表现更好,而且可以灵活地为多个待引入外部知识的NLI模型提升效果。(2)针对目前的自然推理领域的模型的结构语义理解能力不足的问题,本论文提出一种新型网络DtreeTrans(Dependency syntax tree based Transformer)。DtreeTrans采用基于依存句法树构成图的邻接矩阵作为Transformer网络的掩码矩阵的思想,为Transformer主动增强句法特征。具体的使用方法是:在BERT类预训练语言模型微调时,替换其中所有的Transformer为DTreeTrans,使预训练语言模型感知句子对中的结构语义信息。DTreeTrans增强的预训练语言模型在结构语义测试数据集上准确率有明显提升并且综合的语义理解能力也有明显的进步。(3)针对将自然语言推理算法应用到实际场景中的挑战,本论文搭建了自然语言推理算法演示平台。平台提供数据预处理、模型训练、模型预测和结果可视化的功能。针对用户,平台支持选择EDGEGAT和DtreeTrans两种方法进行计算。平台也能够支持开发者自主决定为具体的推理模型引入外部知识或者增强结构语义理解能力,同时开发者可根据具体的开发需求调用系统的中某项功能模块。可调用模块包括数据存储模块、数据预处理模块、推理模型模块、输出模块、后端服务模块和前端展示模块。
基于联合模式的实体关系抽取算法的研究与实现
这是一篇关于命名实体识别,关系抽取,联合模型,依存句法树,多头注意力机制的论文, 主要内容为知识图谱,是结构化的语义知识库,是让机器实现认知智能的基石。它通过图结构的形式来描述知识中的概念及其相互关系,其基本组成单位是“实体——关系——实体”三元组,它们通常隐藏在海量非结构化的文本当中。面对海量的数据,实体关系抽取技术能够实现自动地从非结构化的文本中抽取出符合实际需求的结构化数据,能够大量地减少人力的投入。因此,如何准确、全面地从文本中提取出知识三元组,是一个极具研究价值的问题。命名实体识别和关系抽取是两个不同的信息抽取任务,前者能够从非结构化的文本中提取出实体边界、实体类别的信息,而后者能够识别出不同实体对之间的语义关系信息。通过二者的工作特点容易发现,两个任务之间具有较强的关联性。因此,研究者试图将上述两个任务结合起来,充分利用其关联性,以期获取更好的工作效率和抽取效果。本文主要以实体关系联合抽取算法为研究主题,并结合当前自然语言处理领域的热点技术中暴露出的问题展开研究,其主要研究内容如下:第一,调研并复现了目前性能优良、覆盖场景广泛的热点技术——span级别的实体关系联合抽取,并指出现有方法中的不足:尽管此类模型能够考虑到相互嵌套的实体对关系抽取任务所带来的影响,规避了传统序列标注模式的弊病,但是缺乏句法特征的补充。从而导致模型抽取的关系与对应的实体类型组合相关,但是从句子语义的角度看实体之间却并不存在关系的现象。此外,现有研究表明,在多头注意力机制中一些注意力头倾向于关注相似的内容,并没有发挥出足够的语言建模能力。本文针对上述观察进行分析,并讨论其解决思路;第二,基于上述观察,本文提出一个基于BERT预训练语言模型,并结合句法特征融合的多头注意力机制以及关系子句局部注意机制的实体关系联合抽取算法。在进行span级别的命名实体识别任务基础上,按照不同的实体位置,对依存句法树进行剪枝,形成权重,让多头注意力模型中的一部分注意力头对其进行关注,然后对整个句子进行建模,从而在充分利用注意力头的同时,实现句法和语义特征的融合,同时讨论了不同的剪枝策略对模型产生的影响。此外,还提取出句子中的实体对及其之间的上下文,并施加了局部注意力机制,以实现局部语义的深入挖掘。该模型在公开数据集Conll04和SciERC上进行了实验,结果表明,相比于当前性能优异的baseline模型,在F-1指标上分别有着2.4%和3.3%的提升,获得了更佳的抽取效果;第三,利用上述研究成果,结合实际应用场景的特点,开发了一个基于中文影视新闻领域的信息抽取原型系统,该系统能够自动地从公开网络中定期增量采集影视新闻,然后对采集的新闻语料进行信息抽取,并支持以图谱的方式展示出知识抽取的结果,实现了一个从网络非结构化文本中抽取知识三元组的初步解决方案。
基于联合模式的实体关系抽取算法的研究与实现
这是一篇关于命名实体识别,关系抽取,联合模型,依存句法树,多头注意力机制的论文, 主要内容为知识图谱,是结构化的语义知识库,是让机器实现认知智能的基石。它通过图结构的形式来描述知识中的概念及其相互关系,其基本组成单位是“实体——关系——实体”三元组,它们通常隐藏在海量非结构化的文本当中。面对海量的数据,实体关系抽取技术能够实现自动地从非结构化的文本中抽取出符合实际需求的结构化数据,能够大量地减少人力的投入。因此,如何准确、全面地从文本中提取出知识三元组,是一个极具研究价值的问题。命名实体识别和关系抽取是两个不同的信息抽取任务,前者能够从非结构化的文本中提取出实体边界、实体类别的信息,而后者能够识别出不同实体对之间的语义关系信息。通过二者的工作特点容易发现,两个任务之间具有较强的关联性。因此,研究者试图将上述两个任务结合起来,充分利用其关联性,以期获取更好的工作效率和抽取效果。本文主要以实体关系联合抽取算法为研究主题,并结合当前自然语言处理领域的热点技术中暴露出的问题展开研究,其主要研究内容如下:第一,调研并复现了目前性能优良、覆盖场景广泛的热点技术——span级别的实体关系联合抽取,并指出现有方法中的不足:尽管此类模型能够考虑到相互嵌套的实体对关系抽取任务所带来的影响,规避了传统序列标注模式的弊病,但是缺乏句法特征的补充。从而导致模型抽取的关系与对应的实体类型组合相关,但是从句子语义的角度看实体之间却并不存在关系的现象。此外,现有研究表明,在多头注意力机制中一些注意力头倾向于关注相似的内容,并没有发挥出足够的语言建模能力。本文针对上述观察进行分析,并讨论其解决思路;第二,基于上述观察,本文提出一个基于BERT预训练语言模型,并结合句法特征融合的多头注意力机制以及关系子句局部注意机制的实体关系联合抽取算法。在进行span级别的命名实体识别任务基础上,按照不同的实体位置,对依存句法树进行剪枝,形成权重,让多头注意力模型中的一部分注意力头对其进行关注,然后对整个句子进行建模,从而在充分利用注意力头的同时,实现句法和语义特征的融合,同时讨论了不同的剪枝策略对模型产生的影响。此外,还提取出句子中的实体对及其之间的上下文,并施加了局部注意力机制,以实现局部语义的深入挖掘。该模型在公开数据集Conll04和SciERC上进行了实验,结果表明,相比于当前性能优异的baseline模型,在F-1指标上分别有着2.4%和3.3%的提升,获得了更佳的抽取效果;第三,利用上述研究成果,结合实际应用场景的特点,开发了一个基于中文影视新闻领域的信息抽取原型系统,该系统能够自动地从公开网络中定期增量采集影视新闻,然后对采集的新闻语料进行信息抽取,并支持以图谱的方式展示出知识抽取的结果,实现了一个从网络非结构化文本中抽取知识三元组的初步解决方案。
基于深度学习的自然语言推理算法研究与实现
这是一篇关于深度学习,自然语言推理,图注意力网络,依存句法树,预训练语言模型的论文, 主要内容为自然语言推理是检验自然语言理解能力的基础任务之一。其任务主要是输入提供的句子对(前提和假设),输出句子间的语义关系(蕴含,中立,矛盾)。目前自然语言推理有两个重要研究方向:外部知识引入和结构语义理解,然而这两个方向目前存在一些问题亟待解决。问题一是外部知识引入机制不充分不灵活。先前的方式只是引入了知识图谱中的三元组,而三元组只是知识图谱中相对简单的一种构成单元,而且引入的外部知识方式不是一个单独的网络层,需要做大量的预处理和模型改造工作,这一定程度上限制其适用到其他已有的推理模型上。问题二是自然语言推理模型的结构语义理解能力不足。以往自然语言推理模型在对结构语义能力要求很高的样本子集上测试表现都比较差。最后,将语义推理算法应用到实际场景中也是本论文的面对的一个挑战。针对以上问题本论文提出以下解决方案:(1)针对引入外部知识机制不充分不灵活的问题,本论文提出了一种新型的为NLI模型提供外部知识的机制EDGEGAT(Edge enhanced Graph Attention Networks)。该框架采用图注意力网络对外部知识子图进行网络结构信息嵌入学习,并将推理模型和图网络联合训练,为推理模型实现引入外部知识。同时本论文对图注意力网络改进,增加了计算图中边属性重要性。经在相关自然语言处理数据集上验证,EDGEGAT 比之前外部知识引入机制表现更好,而且可以灵活地为多个待引入外部知识的NLI模型提升效果。(2)针对目前的自然推理领域的模型的结构语义理解能力不足的问题,本论文提出一种新型网络DtreeTrans(Dependency syntax tree based Transformer)。DtreeTrans采用基于依存句法树构成图的邻接矩阵作为Transformer网络的掩码矩阵的思想,为Transformer主动增强句法特征。具体的使用方法是:在BERT类预训练语言模型微调时,替换其中所有的Transformer为DTreeTrans,使预训练语言模型感知句子对中的结构语义信息。DTreeTrans增强的预训练语言模型在结构语义测试数据集上准确率有明显提升并且综合的语义理解能力也有明显的进步。(3)针对将自然语言推理算法应用到实际场景中的挑战,本论文搭建了自然语言推理算法演示平台。平台提供数据预处理、模型训练、模型预测和结果可视化的功能。针对用户,平台支持选择EDGEGAT和DtreeTrans两种方法进行计算。平台也能够支持开发者自主决定为具体的推理模型引入外部知识或者增强结构语义理解能力,同时开发者可根据具体的开发需求调用系统的中某项功能模块。可调用模块包括数据存储模块、数据预处理模块、推理模型模块、输出模块、后端服务模块和前端展示模块。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码导航 ,原文地址:https://m.bishedaima.com/lunwen/56016.html