基于知识表示学习和跨语言迁移增强的文本蕴含识别研究
这是一篇关于文本蕴含识别,自然语言推断,深度学习,跨语言文本蕴含识别的论文, 主要内容为文本蕴含识别,也称为自然语言推断,是自然语言处理中的一项具有挑战性的关键任务。目前,文本蕴含识别已经被广泛应用到了自然语言处理中的各项应用之中,包括自动问答、信息检索以及机器翻译等。同时,文本蕴含识别同时也是评估自然语言理解的重要任务之一。近年来,随着大规模文本蕴含基准数据集的发布,可用于文本蕴含识别训练的数据大量增加,为深度学习方法在文本蕴含识别任务上的应用提供了数据基础。目前,深度学习方法已经被广泛使用在文本蕴含识别任务中,并取得了优异的性能效果。然而,目前基于深度学习的文本蕴含识别方法仍存两方面的不足。一方面,现有的深度学习模型未能充分利用外部知识资源。已有的深度神经网络绝大多数建立在词向量基础上,然而,判断两个文本之间的蕴含关系往往需要的一些词向量以外的知识。例如,单词之间的反义关系对文本蕴含识别中的矛盾标签识别具有重要作用。如果神经网络缺少这些外部知识,往往难以对两个文本之间的蕴含关系进行准确的判断,使得文本蕴含识别的性能下降。虽然已有一些方法使用外部知识对文本蕴含识别进行增强,并将外部知识转化为一些可用于神经网络的数值特征或者通过一种流水线策略将外部知识表示为实值向量,并集成到神经网络模型中,但是这些方法忽视了知识表示与文本蕴含识别模型之间的交互,使得神经网络未能充分运用这些外部知识来辅助文本蕴含识别判断。另一方面,现有的文本蕴含识别方法大多数聚焦于英文数据,要使文本蕴含识别扩展至其他语言,必须对文本蕴含识别进行跨语言拓展。已有一些方法利用双语对齐语料对齐源语言和目标语言的句子嵌入,但这些方法严重依赖于双语对齐语料。也有一些方法使用跨语言预训练语言模型,在源语言上进行微调,并应用于目标语言,但这些方法难以在两种语言上迁移知识。因此,为了解决现有方法存在的这些不足之处,本文从两个方面对文本蕴含识别进行增强:1.使用知识表示学习方法对WordNet知识图谱进行嵌入,提出了一种联合训练知识表示学习模型和文本蕴含识别模型的框架。在三个常用的文本蕴含识别基准数据集SNLI、MultiNLI和SciTail上进行了大量对比实验,验证了该联合训练框架的有效性;2.对文本蕴含识别方法进行了跨语言扩展,提出了一个基于对抗训练的跨语言文本蕴含识别增强框架。该框架可以应用在经典的神经网络文本蕴含识别模型和跨语言预训练模型上。在包含15种语言的跨语言文本蕴含数据集XNLI上验证了框架的有效性。
融合知识图谱的自然语言推理算法研究
这是一篇关于自然语言推理,文本蕴含识别,知识图谱,胶囊网络,外部知识信息的论文, 主要内容为自然语言推理的主要任务是在给定前提和假设文本的情况下,让机器推理出前提和假设之间存在的蕴含关系,是自然语言处理领域里一项基础且重要的研究,有着广泛的应用前景。知识图谱的引入为自然语言推理模型提升了泛化能力,然而现有融合知识图谱的推理方法没有考虑知识子图构建过程中的噪声问题;传统图神经网络对知识子图进行编码会造成部分结构化知识信息的丢失,影响最终模型的准确率。针对以上问题,本文首先从连接前提和假设之间的路径信息考虑,提出优选路径的子图构建策略,然后构建基于胶囊的图编码网络对提取到的知识子图进行编码以最大程度地保留子图中的知识信息,本文所做的主要研究工作和创新点如下:1、针对子图构建过程中的噪声问题,提出优选路径的子图构建策略。结合权重信息和路径长度信息进行知识子图过滤,从而减少图中未匹配实体的数量,增加子图的上下文相关度,同时为了更进一步获取子图中的知识信息,对前提和假设构成的子图进行编码,将得到的定长向量融入基于文本的推理模型做训练,从而构建出文本与图联合训练的推理模型。2、针对传统图神经网络编码子图造成的信息丢失问题,本文提出融合胶囊网络的知识增强型自然语言推理模型(Caps-KGEIM),通过胶囊单元,将图卷积神经网络输出的标量形式特征转化为向量形式以更好地保留图中的结构化知识信息,使文本向量和图向量相融合做训练,为基于文本的推理模型丰富了外部知识信息。3、使用neo4j做知识图数据的管理,配合Pytorch深度学习框架搭建神经网络模型,分别在CNLI和RITE数据集下对模型性能做相关实验,结果表明本文的子图构建方法相比固定跳数的方法能够得到更加纯净的知识子图,和多个经典基线模型对比,本文提出的模型均有不同程度的识别准确率提升。
基于知识推理的中文文本蕴含识别方法研究
这是一篇关于文本蕴含识别,中文文本,上下文语义,知识图谱,知识推理的论文, 主要内容为随着社交网络的快速发展,互联网上产生的文本数量呈现爆炸性增长。为了让计算机更深层次地理解文本语义,文本蕴含识别技术应运而生,其主要是判断两个文本间的单向推理关系,可以应用在问答系统、机器翻译、信息检索等自然语言处理任务中。近年来,许多学者开始尝试将外部知识图谱引入到文本蕴含识别领域中,依靠其中蕴含的丰富的经验和常识等能够在一定程度上提高识别准确率。然而,目前的文本蕴含识别方法仍然不能够充分地捕捉知识图谱中蕴含的各种知识推理信息,且当前主流的文本蕴含识别模型以英文为主,但中英文理解存在差异,处理中文文本时更需要根据上下文语境理解文本语义,并且现有方法主要考虑了中文文本中包含的词向量特征,忽略了其包含的字向量特征。因此,研究基于知识推理的中文文本蕴含识别方法具有重要的理论价值与现实意义。针对以上问题,本文从以下三个方面展开研究。主要工作和成果如下:(1)提出了基于知识图谱的知识推理方法针对现有的知识推理方法未能充分地挖掘知识图谱中丰富的知识信息,导致文本蕴含识别任务中引入的经验知识和常识信息等受限问题,分别从知识图谱的图结构信息和路径信息两个维度,制定特征提取方案:设计加权关系图卷积网络WRGCN提取知识图谱的结构特征,以充分学习实体和关系的表示;设计基于卷积及位置嵌入的路径编码网络CPE-PEN,对知识图谱中的路径序列信息进行建模,以充分提取路径序列的特征;设计基于实体注意力的多路径特征融合方法,实现多条路径序列的特征信息提取;最后,提出了融合图结构与路径特征的知识推理方法,以充分挖掘和利用知识图谱中丰富的知识信息。设计对比实验,结果表明所提出的知识推理方法可以在中文文本蕴含识别任务中引入丰富的知识信息,有助于提升中文文本蕴含识别模型的识别效果。(2)设计了面向中文文本蕴含识别的语义关系表示方法针对目前中文文本蕴含识别模型对上下文信息提取不足问题,设计面向中文文本蕴含识别的语义关系表示模型。在编码层,使用S-LSTM网络并行地进行丰富的上下文信息交换,并且通过自注意力机制为编码向量中的每个隐藏状态合理分配权重;在交互层,设计上下文交叉注意力机制对齐前提文本和假设文本,以充分利用中文文本的上下文信息,并从三个方面(直接连接、相减、元素按位相乘)将文本对齐后的表示与原始语义向量表示进行融合,从而得到更好的语义关系表示。并设计对比实验,结果表明所提出的模型能有效表征隐含在文本上下文语境中的语义特征,进而提升中文文本蕴含识别的准确率。(3)设计了基于知识推理的中文文本蕴含识别方法针对现有的中文文本蕴含识别模型未能很好地利用到来自外部知识图谱中各种知识推理信息,并且目前处理中文文本的方法忽略了其包含的字向量中也蕴含着丰富的文本语义信息等问题,设计基于知识推理的中文文本蕴含识别模型。在知识推理层,使用所设计的融合图结构与路径特征的知识推理方法对前提文本和假设文本中的实体等结构信息进行编码,从而得到文本间的知识关系表示;在嵌入层,融合中文文本的词向量与字向量特征,获得更好的文本语义嵌入表示;在编码层和交互层充分利用中文文本的上下文信息;在预测层,设计注意力池化的方法融合文本间的语义关系表示与知识关系表示,从而预测最终的文本蕴含识别结果。最后,设计了对比实验,结果表明本文所构建的中文文本蕴含识别模型在准确率等指标上超过了基准模型,取得了具有竞争性的效果。
基于知识表示学习和跨语言迁移增强的文本蕴含识别研究
这是一篇关于文本蕴含识别,自然语言推断,深度学习,跨语言文本蕴含识别的论文, 主要内容为文本蕴含识别,也称为自然语言推断,是自然语言处理中的一项具有挑战性的关键任务。目前,文本蕴含识别已经被广泛应用到了自然语言处理中的各项应用之中,包括自动问答、信息检索以及机器翻译等。同时,文本蕴含识别同时也是评估自然语言理解的重要任务之一。近年来,随着大规模文本蕴含基准数据集的发布,可用于文本蕴含识别训练的数据大量增加,为深度学习方法在文本蕴含识别任务上的应用提供了数据基础。目前,深度学习方法已经被广泛使用在文本蕴含识别任务中,并取得了优异的性能效果。然而,目前基于深度学习的文本蕴含识别方法仍存两方面的不足。一方面,现有的深度学习模型未能充分利用外部知识资源。已有的深度神经网络绝大多数建立在词向量基础上,然而,判断两个文本之间的蕴含关系往往需要的一些词向量以外的知识。例如,单词之间的反义关系对文本蕴含识别中的矛盾标签识别具有重要作用。如果神经网络缺少这些外部知识,往往难以对两个文本之间的蕴含关系进行准确的判断,使得文本蕴含识别的性能下降。虽然已有一些方法使用外部知识对文本蕴含识别进行增强,并将外部知识转化为一些可用于神经网络的数值特征或者通过一种流水线策略将外部知识表示为实值向量,并集成到神经网络模型中,但是这些方法忽视了知识表示与文本蕴含识别模型之间的交互,使得神经网络未能充分运用这些外部知识来辅助文本蕴含识别判断。另一方面,现有的文本蕴含识别方法大多数聚焦于英文数据,要使文本蕴含识别扩展至其他语言,必须对文本蕴含识别进行跨语言拓展。已有一些方法利用双语对齐语料对齐源语言和目标语言的句子嵌入,但这些方法严重依赖于双语对齐语料。也有一些方法使用跨语言预训练语言模型,在源语言上进行微调,并应用于目标语言,但这些方法难以在两种语言上迁移知识。因此,为了解决现有方法存在的这些不足之处,本文从两个方面对文本蕴含识别进行增强:1.使用知识表示学习方法对WordNet知识图谱进行嵌入,提出了一种联合训练知识表示学习模型和文本蕴含识别模型的框架。在三个常用的文本蕴含识别基准数据集SNLI、MultiNLI和SciTail上进行了大量对比实验,验证了该联合训练框架的有效性;2.对文本蕴含识别方法进行了跨语言扩展,提出了一个基于对抗训练的跨语言文本蕴含识别增强框架。该框架可以应用在经典的神经网络文本蕴含识别模型和跨语言预训练模型上。在包含15种语言的跨语言文本蕴含数据集XNLI上验证了框架的有效性。
融合语言知识与深度学习的文本蕴含识别及其应用研究
这是一篇关于文本蕴含识别,知识表示,短文本评分,深度学习的论文, 主要内容为随着人工智能的不断发展,自然交互不断深入到人们生活,智能音箱,智能家教,智能搜索,智能客服等一系列产品不断产生。文本蕴含识别是自然语言理解任务中的一个基础又核心的任务,能增强问答系统理解自然语言的能力,直接的应用是能进行知识验证,相比自然理解中的意图理解,文本蕴含具有的常识和逻辑推理更具挑战,在机器阅读,自动答题,自动评分上均有直接应用。随着深度学习和神经网络的发展,同时得益于大规模数据集SNLI的发布,基于神经网络的文本蕴含识别的模型层出不穷,主要分为两大类,一类是基于句子编码的文本蕴含模型,一类是基于交互注意力机制的文本蕴含模型。文本主要关注基于交互注意力机制的文本蕴含模型。另外目前最新的文本蕴含模型也存在词对推理能力较差的问题,例如目前系统无法针对常识中的反义词,上下位词的词对关系进行识别,因此文本主要是将人工知识引入到文本蕴含识别模型,来改善这一问题。首先,我们从三个角度获取词对知识向量,目前主要是在如何表示一个词,很少有人关注如何表示一个词对,而词对的表示对文本蕴含识别有重要的作用,我们首先尝试基于文本特征的词对关系分类,想用词对在上下位词,同义词,反义词的类别分布来表示词对关系,之后我们尝试了知识图谱表示工具TransR,希望实体向量和关系向量的相互关系能帮助我们学习到更多的信息,最后我们专门针对文本蕴含推理中的反义词和同义词进行了建模,这样我们得到了带有词汇关系知识的词对向量。然后我们获取的三种知识向量的特点将知识向量引入到词对齐和注意力机制的部分。在特定数据集下,相比经典模型发现引入反义词向量能有较大的提升。其次,我们针对现有的中文文本蕴含数据集,针对中文的信息量大以及可能存在分词错误的问题,通过引入字特征和依存分析特征,又结合了目前流行的上下文相关向量,在中文蕴含识别数据集得到了提升。最后,我们尝试将文本蕴含技术应用在慕课场景下的短文本评分任务中,具体是结合问题和问题对应的标准答案,来判断学生回答的重要性,结合文本匹配数据集和文本蕴含数据集,构建的文本匹配器去判断问题和学生回答的匹配关系,让学生回答和标准答案来判断蕴含关系,两部分联合训练以共同构建了评分模型,在评测数据集上取得了较大提升。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕业设计驿站 ,原文地址:https://m.bishedaima.com/lunwen/56294.html