基于预训练模型和知识增强的常识推理研究
这是一篇关于常识推理,预训练模型,知识增强,图神经网络的论文, 主要内容为在日常沟通中,当人们回答问题时,往往会有意识或无意识地利用自己掌握的常识知识或背景知识,而对于计算机而言,能够理解并利用自然文本中的这种常识知识是其能实现语义理解和高质量推理的基础。而当前领先的自然语言处理技术获得这种常识知识一般包括2种途径:一是基于在大型无标注文本上的预训练,使模型获得隐性的、不可解释的常识知识,并编码在模型参数中;二是通过明确的外部知识库,向模型进行知识增强,同时增强模型的可解释性与鲁棒性。因此,本论文通过从两种异构知识源中提取具有不同侧重点的知识,使用不同的知识注入方式,探究不同的知识增强方法对预训练模型常识推理性能的影响。目前的各种预训练语言模型尽管在各种自然语言处理任务中可以取得很好的效果,但是预训练模型学习到的行为往往依赖于简单的、有时甚至是虚假的模式来提供回答问题的“捷径”,而不是依靠强大而结构化的推理,也就是说预训练模型在语义理解上还不够深入。另一方面,因为预训练模型不能天然地对图数据结构进行建模,所以仅使用预训练模型无法很好地处理诸如知识图谱等结构化数据中概念间的复杂关系信息,进而无法充分利用其中的结构化知识。由于预训练模型的以上局限性,本文在常识推理数据集Commonsense QA上展开实验,尝试将Concept Net知识图谱和英文维基百科两种来源的常识知识信息与预训练模型融合,提升模型的常识推理性能。而对于从Concept Net提取出的图结构知识,在使用预训练模型进行编码的基础上,还进一步使用图神经网络为其图结构中的关系信息进行深度特征提取,进一步提升模型的常识推理和语义理解能力。故本文的主要研究工作可以概括为以下3个方面:(1)在不注入外部知识的情况下,对比了BERT、Ro BERTa、ALBERT等不同规模、不同优化手段的预训练语言模型在预训练阶段获得的隐性常识知识在常识推理上的性能。(2)利用自定义的知识提取方法,从Concept Net知识图谱中提取自然文本形式的三元组知识;从英文维基百科xml文件中提取各种概念的摘要,形成摘要句子库,然后利用BM25信息检索算法,从摘要句子库中提取描述性外部知识。针对两种不同的知识类型,设计了不同的知识注入方式,对比不同注入方式对预训练模型性能的影响。进一步地,设计了两种融合输入方式对两种异构知识进行融合,对比两种方式的差异,以及对比关系性知识或描述性知识等单一知识类型而言的优劣。(3)从Concept Net知识图谱中,基于路径长度为2以内的提取方法获取概念间的知识子图,然后基于知识子图提供的证据提升常识推理性能。接着,基于知识子图构造自定义的三元组结构图,并使用图卷积网络对三元组结构图的节点特征信息以及结构信息进行深度编码,从而获得更深层次的抽象特征表示,最后利用图注意力算法聚合节点表示形成图级表示,进而进行输出和预测。实验证明,这种更深层次的特征表示能够充分捕捉知识图谱中的信息,进一步提升了模型的常识推理性能。本文研究的实验成果与创新点可以总结为以下3个方面:(1)在注入单一知识源方面:无论是关系性知识还是描述性知识的注入,与不注入知识的baseline相比,模型的准确率均有显著提升。其中关系性知识的引入提升了2.8%的准确率,描述性知识引入中的“全句检索”和“概念检索”两种方式分别提升了2.4%和2.0%,这充分证明了知识增强对于模型常识推理性能提升的有效性和必要性。(2)在融合两种异构知识方面:融合三元组和“全句检索”的方式达到了最优,比baseline模型提升了3.8%的表现,而融合三元组和“概念检索”的方式虽然比融合“全句检索”低了0.5%,但均高于了单一知识源的表现,这说明了关系性和描述性的两种异构知识互为重要补充,二者融合能够进一步提升模型的表现。(3)在基于图结构的推理方面:利用路径为2以内提取的知识子图进行推理,比利用单一三元组的效果好0.7%;在从知识子图转换为自定义的三元组结构图后,利用经典的图卷积网络和图注意力对其进行深度编码后进行预测输出,实现了81.2%的准确率,比仅使用知识子图提升了1.4%,充分论证了使用图神经网络算法编码复杂图结构进行知识增强的有效性。
人物关系图谱构建技术研究与实践
这是一篇关于人物关系图谱,动态字词融合,知识增强的论文, 主要内容为人物关系图谱,是指将人物之间的关系进行关联组织而形成的一类垂直领域知识图谱。它可为人口普查、广告商品推荐、公安线索拓展等相关业务提供重要知识支撑。针对现有人物关系图谱构建面临的构建模式较为单一、人物实体识别准确率有待提升、人物关系抽取中知识利用不充分等问题,论文开展人物关系图谱构建技术研究与实践,综合采用自上而下和自下而上两种模式来进行人物关系数据的采集处理,即一方面采用自上而下的模式从在线百科半结构化数据中进行人物关系基础数据采集,另一方面则以人物命名实体识别和人物关系抽取等技术为抓手,采用自下而上的模式从开放域网络文档数据中进行人物关系数据抽取,最后对两部分人物关系数据进行融合进而构建大规模人物关系图谱。论文主要工作如下:1、设计了一种自上而下的人物关系数据获取方法。面向互联网百科半结构化人物关系数据,利用数据爬虫采集人物属性与关系等信息,并以三元组的方式进行结构化组织,在此基础上采用基于机器学习的方法剔除噪声三元组,从而形成一套规模较小但质量较高的人物关系图谱数据。2、提出了一种动态字词信息融合的中文命名实体识别算法。针对命名实体识别过程中无法充分利用词汇信息的问题,首先利用多头自注意力机制动态融合对应位置的词汇信息与字符信息形成词汇集合信息,其次动态融合词汇集合信息确定对应的词汇边界,利用词汇向量优化字符向量表示,最后完成命名实体识别。3、提出了一种基于知识增强的人物关系分类方法。针对预训练语言模型不能充分利用结构化知识的问题,首先通过三元组逻辑编码明确三元组的成分进而引入三元组逻辑信息;其次使用共享相对位置编码的方法完成知识增强;最后设计了一种attention_mask机制以降低知识噪声。此方法可将三元组知识引入预训练语言模型进而提高人物关系分类的性能表现。4、设计并实现人物关系图谱构建框架。首先以第三章百科人物关系图谱数据为启动数据;其次利用第四章和第五章的信息抽取方法进行开放域人物关系信息抽取;最后利用知识融合、知识加工算法对两种数据源提取的人物关系信息进行整合形成大规模人物关系图谱。论文依托国家重点研发计划《基于XX增强学习的XX图谱表征技术研究》,作为项目子课题,提出了一种动态字词融合命名实体识别算法与一种基于知识增强的人物关系分类方法,分别用于改善文本信息抽取过程中命名实体识别性能与关系抽取性能,同时结合论文提出的方法以百科人物关系数据为启动数据构建了一个大规模高质量人物关系图谱。
多模态数据融合方法的研究与应用
这是一篇关于多模态融合,二手交易平台,推荐,稀疏性,知识增强,场景识别的论文, 主要内容为近年来,随着各类数字信息化平台的兴起与快速发展,各式各样的包含丰富信息的多模态数据的数量呈现出了爆炸性增长,同时针对这些多模态数据的自动化处理与理解的需求也随之而来。多模态数据,即那些包含了多种形式或类型信息(例如视觉、文本等)的数据,如何融合这些不同形式的信息是多模态数据处理与理解的难点。本文围绕多模态数据融合的主题进行了两个方向的探索与尝试:其一是探索层级信息与视觉信息的融合,应用于二手交易平台的个性化商品推荐任务;其二是在尝试通过引入外部知识来引导跨模态融合以提升模型性能,应用于知识增强的视频场景标签预测任务。首先,随着环保和回收意识的提高,二手交易平台近年来越来越受到关注。二手交易平台上的交互数据与传统平台上所不同的是,每个用户有足够多的交互,而每个商品有关的平均交互数极少。因此,在二手交易平台上构建成功的推荐系统需要平衡建模商品和用户偏好,与减轻稀疏性的不利影响,这使得推荐尤其具有挑战性。本文提出了一种从粗细粒度特征中同时学习商品和用户表达的方法,并设计了一种多任务学习策略来解决数据稀疏性问题。本文在一个真实的二手交易平台数据集上开展了实验,实验结果证明了本文提出模型的有效性。本文还将所提出的多任务学习策略应用于几种较为先进的方法,而它们都取得了很大的性能提升,验证了本文所提出的多任务学习策略的有效性。而另一方面,随着视频数据量在各类应用的飞速增长,针对视频获得其有代表性的隐式表达对于视频理解任务来说变得愈发重要。本文研究了视频场景识别问题,其目标是学习一种高阶的视频隐式表达用以对视频中的场景进行分类。由于现实场景中视频内容的多样性和复杂性,这项任务仍然是一个挑战。大多数现有研究仅从时序角度基于视觉或文本信息来识别视频场景,不同程度地忽略了隐藏于单帧的有价值信息,同时另一些早期研究仅从非时序角度识别单张图像中的场景。本文认为,这两个视角对场景识别这项任务来说都是有意义的,并且是可相互补充的,同时,引入外部的知识也可促进对视频的理解。本文提出了一种新颖的双流框架模型,从多个角度(即时序和非时序角度)对视频表达进行建模,并通过自蒸馏来以端到端的方式融合这两个角度。此外,本文还提出了一种知识增强的特征融合和标签预测方法,有助于将知识自然地引入到视频场景识别任务中。本文在真实的视频场景数据集上开展了实验,实验结果证明了该方法的有效性,同时消融实验也验证了模型各个部分的有效性。
基于知识增强的预训练语言模型研究
这是一篇关于自然语言处理,预训练,语言模型,知识增强的论文, 主要内容为通用深度预训练语言模型在大规模无监督信息的语料库上利用精心设计的自监督预训练任务进行训练,它在下游数据集上只需要简单的微调就能够打破之前模型的最好成绩,给自然语言处理领域带来了跨越式的发展。然而,尽管上述模型能够在很多下游任务上具有良好的表现,在一些特定领域任务和强知识驱动型任务上,它们的表现并不能令人满意,还有很大的提升空间。随着近来大规模知识图谱的构建和发展,现有的一些工作提出了利用外部知识去增强预训练语言模型,对于知识增强预训练语言模型的研究有望实现逼近具有人类水平的人工智能,有很高的学术价值和现实意义。然而目前的工作缺少对异质多源知识图谱的利用,也很少关注知识图谱中的结构化信息,对知识图谱的挖掘程度尚且不够。同时,从模型吸收和利用外部知识的情况看,目前还没有工作考虑过模型是否真正理解注入的知识,这会使得注入的知识没有办法按照原本预想的方式生效,降低效果的同时无法如我们所愿构造更鲁棒高效的人工智能。因此,本文为解决这些问题,做了包含如下内容的主要工作:1.基于图神经网络的多源知识融合。多源知识融合重点在于能够将多个知识图谱的异质知识进行有效融合和表示。本文提出基于图神经网络的多源知识融合,首先对各个相互异质的知识图谱分别构建同质图实现对他们各自的表示,然后进行图融合形成一张统一的异质图,之后通过混合图注意力机制提升各个节点的表示,再将高质量的整图表示通过位置特定的门控机制融合回预训练语言模型中,减少了知识噪声的引入。整体最终实现了高效的多源知识融合和表示,为模型利用这些多源异质知识进行综合以及推理做好了基础工作。2.基于知识上下文的结构化信息利用。知识图谱中的结构化信息可以粗略地理解为围绕一个目标实体由其周围邻居关系构成的结构信息。本文提出知识上下文的概念,进一步利用结构化信息对输入文本中实体表示的进行增强。本文提出了基于实体-邻居的混合注意力以及知识上下文建模的预训练任务帮助将预训练语言模型产生的实体表示信息传入到其周围邻居实体中,并反过来通过聚合周围邻居实体的表示去增强中心目标实体的表示,促进不同实体通过共同邻居交流信息,以此为表示较差的低频实体提供额外的全局知识上下文。3.基于双向映射预训练的知识理解增强。目前知识增强预训练语言模型的相关工作忽视了模型对于注入知识的理解。本文提出了双向映射提升知识理解的预训练任务。通过训练模型从文本到实体的转化能力和反过来从实体到文本的转化能力,让模型能够将相关实体文本转化为知识嵌入空间的对应实体,进行综合推理后再转化回自然语言的文本表示输出,实现了对注入知识的掌握和利用,大大提高了模型在相关任务上的表现。本文的主要贡献点均设置了大量的实验和相应分析,有效证明了提出模型和机制的合理性、可靠性和有效性,进一步推动了相关研究的发展。
多模态数据融合方法的研究与应用
这是一篇关于多模态融合,二手交易平台,推荐,稀疏性,知识增强,场景识别的论文, 主要内容为近年来,随着各类数字信息化平台的兴起与快速发展,各式各样的包含丰富信息的多模态数据的数量呈现出了爆炸性增长,同时针对这些多模态数据的自动化处理与理解的需求也随之而来。多模态数据,即那些包含了多种形式或类型信息(例如视觉、文本等)的数据,如何融合这些不同形式的信息是多模态数据处理与理解的难点。本文围绕多模态数据融合的主题进行了两个方向的探索与尝试:其一是探索层级信息与视觉信息的融合,应用于二手交易平台的个性化商品推荐任务;其二是在尝试通过引入外部知识来引导跨模态融合以提升模型性能,应用于知识增强的视频场景标签预测任务。首先,随着环保和回收意识的提高,二手交易平台近年来越来越受到关注。二手交易平台上的交互数据与传统平台上所不同的是,每个用户有足够多的交互,而每个商品有关的平均交互数极少。因此,在二手交易平台上构建成功的推荐系统需要平衡建模商品和用户偏好,与减轻稀疏性的不利影响,这使得推荐尤其具有挑战性。本文提出了一种从粗细粒度特征中同时学习商品和用户表达的方法,并设计了一种多任务学习策略来解决数据稀疏性问题。本文在一个真实的二手交易平台数据集上开展了实验,实验结果证明了本文提出模型的有效性。本文还将所提出的多任务学习策略应用于几种较为先进的方法,而它们都取得了很大的性能提升,验证了本文所提出的多任务学习策略的有效性。而另一方面,随着视频数据量在各类应用的飞速增长,针对视频获得其有代表性的隐式表达对于视频理解任务来说变得愈发重要。本文研究了视频场景识别问题,其目标是学习一种高阶的视频隐式表达用以对视频中的场景进行分类。由于现实场景中视频内容的多样性和复杂性,这项任务仍然是一个挑战。大多数现有研究仅从时序角度基于视觉或文本信息来识别视频场景,不同程度地忽略了隐藏于单帧的有价值信息,同时另一些早期研究仅从非时序角度识别单张图像中的场景。本文认为,这两个视角对场景识别这项任务来说都是有意义的,并且是可相互补充的,同时,引入外部的知识也可促进对视频的理解。本文提出了一种新颖的双流框架模型,从多个角度(即时序和非时序角度)对视频表达进行建模,并通过自蒸馏来以端到端的方式融合这两个角度。此外,本文还提出了一种知识增强的特征融合和标签预测方法,有助于将知识自然地引入到视频场景识别任务中。本文在真实的视频场景数据集上开展了实验,实验结果证明了该方法的有效性,同时消融实验也验证了模型各个部分的有效性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码码头 ,原文地址:https://m.bishedaima.com/lunwen/48694.html