基于注意力机制的远程监督关系抽取研究
这是一篇关于关系抽取,远程监督关系抽取,注意力机制,卷积神经网络,层级关系的论文, 主要内容为关系抽取是自然语言处理领域中的常见任务,其能够从大量文本中抽取到实体对之间表达的关系,用于诸如知识图谱补全、问答系统等下游任务。其中能够自动生成标注数据的远程监督关系抽取方法逐渐成为研究热点。现有的远程监督关系抽取模型中主要存在以下不足:首先,在远程监督关系抽取任务中很多模型没有对文本上下文信息进行全面的特征抽取;其次,远程监督关系抽取任务中很多模型没有对局部特征和全局特征进行有效融合;第三,大部分模型忽略了关系自身的层级信息以及关系与关系之间的潜在联系,没有对这方面进行深入挖掘;最后,数据集存在的长尾分布问题没有得到足够重视,导致训练出来的模型与真实场景表现存在偏差。针对上述存在的问题,本文开展了深入的研究工作,主要完成的工作如下:1、调研自然语言处理、关系抽取、远程监督等相关领域的科研文献,深入研究现有的远程监督关系抽取算法,分析并总结了现有模型的不足与可改进之处。2、提出了一种基于自注意力门控融合单元的句子级远程监督关系抽取模型(SS-Att)。现有的句子级远程监督关系抽取模型中存在上下文特征抽取不足以及局部特征与全局特征没能有效融合的问题。本文模型融入新的文本特征来增强输入特征的表示,并利用门控单元将自注意力模块与分段池化卷积神经网络结构相结合,在抽取更全面的文本上下文特征的同时,将局部特征与全局特征进行有效融合,得到更丰富的高阶特征,从而提升模型在远程监督关系抽取任务中的效果。3、基于SS-Att模型以及层级关系建模算法,提出一种新的基于自注意力的多标签远程监督关系抽取模型(MLAN-FM)。现有的远程监督关系抽取模型大多是基于单标签进行分类的,而远程监督关系抽取实际上是一个多标签分类任务,本文基于已提出的模型进行适配改进,提出并设计了一种层级关系建模算法,用于对层级关系特征信息进行深入挖掘并对文本语句特征进行关系增强。同时,设计一个新的损失函数,根据数据类别的分布来自适应地调整其在梯度下降时的权重更新情况,从而缓解数据分布不均匀带来的影响,提升其多标签分类任务的精度。4、针对以上提出的两个模型,分别对其在公开的标准数据集上与多种先进的远程监督关系抽取模型进行对比实验并加以分析,在对应指标上取得了更优的效果,通过实验结果验证本文提出的两种模型的有效性。
医学关系抽取和知识图谱分布式表示研究
这是一篇关于有监督关系抽取,远程监督关系抽取,负例采样,知识图谱分布式表示,增强学习的论文, 主要内容为随着社会和经济的不断发展,人们的生活水平得到了极大地提升,对个人健康和生活问题开始投入越来越多的关注。同时,社会的发展也带来了技术的革新与进步,为了解决医疗费用和需求的增长与优质医疗资源不足之间的矛盾,智慧医疗技术应运而生,这将是一种可以充分利用医学文本知识来模拟医生进行学习和诊疗的技术。而智慧医疗的发展与学习医学知识必不可分,医学知识的来源整体上可概括为医学书籍、临床数据、网络数据三个方面,本文基于医学书籍、网络语料两个来源的数据,对知识图谱构建过程中的关系抽取技术和知识图谱的分布式表示进行了研究。(1)对医学数据进行人工标注,并训练有监督关系抽取模型。提出了基于自注意力机制的分段池化卷积神经网络分类模型,并引入了实体类别等特征使F1值达到了87.2%。(2)对不依赖人工标注的远程监督关系抽取进行了探索。在如何降低远程标注噪声问题方面进行了尝试:先后采用基于规则的方法、基于注意力机制的方法、基于增强学习的方法进行降噪,并探究了负例采样问题,最终的AUC值达到了0.489,也构建了一个涵盖信息较为丰富的基础医学知识图谱。(3)针对构建的基础知识图谱,将其由符号表示转化为更容易给其他任务提供信息输入的稠密低维实值向量表示。基于训练好的向量表示模型来预测知识图谱中的关系和实体,从而达到知识图谱补全的目的。经过上述研究,从各种医学书籍、医学网站出发构建了一个基础版的医学知识图谱。此外,本文构建的远程监督关系抽取框架可以在不需要人工标注的情况下适用于大部分医学语料,甚至是临床文本,这就相当于未来几乎可以将所有的医学知识都囊括到我们现有的知识图谱体系当中。进一步的,通过对知识图谱的分布式表示进行研究,可以直接将图谱的向量表示信息提供给对话问答、诊断推理等任务,从而能更好地发挥智慧医疗的作用,减少医生的诊断次数和诊断时间,促进优质医疗资源的下沉,弥补医疗资源的不足。
基于深度学习的实体关系抽取方法研究
这是一篇关于深度学习,远程监督关系抽取,特征选择,语义共现,预训练语言模型的论文, 主要内容为随着数据化、信息化时代的到来,网络信息以指数级速度增长,使人们接收到远超其所能承受或需要的信息量,多领域交叉融合的现象日益凸显,如何精确高效的从浩如烟海的数据信息中获取对人类社会有价值、有意义的信息,成为大数据时代亟待寻求破解之道的重要问题。实体关系抽取任务作为知识图谱构建的基础,旨在判断非结构化文本中实体对之间存在的语义关系并将其划分入预先设置的类型中,使数据变为结构化形式,因此其具有重要的研究价值。目前大部分基于深度学习的实体关系抽取模型存在误差传播问题、语料深层特征提取不充分问题及多义词信息利用不足问题。本文针对以上问题,从下面两个角度进行研究:(1)针对远程监督标注数据时产生的噪声及深度学习特征提取中的误差传播问题,本文利用残差网络可以将浅层信息与深层信息联合表示的特性建立深层卷积神经网络,并通过修改identity mapping中传递函数,以达到在深层的传递过程中不断更新特征的权重,获取到输入文本中更深层更有效的信息,达到了更高分类精度。(2)针对现有实体关系抽取方法未考虑实体对之间共现关系和语言结构信息,本文将预训练语言模型与多种语义信息结合构建多语义融合的实体关系抽取模型。将预训练语言模型应用于实体关系抽取任务,采用语义向量及语言结构向量相结合的方式来突出语义特征信息,缓解对句子局部及全局信息表征不足的问题,提高对文本局部特征及全局特征利用率。进一步,本文考虑不同实体在句子中共同出现表达的语义含义差异,引入实体共现信息作为语义特征解决一词多义问题。最后将所构建模型,分别在中英文数据集进行实验验证。结果表明,本文提出的模型能更有效地提高实体关系抽取效果。
医学关系抽取和知识图谱分布式表示研究
这是一篇关于有监督关系抽取,远程监督关系抽取,负例采样,知识图谱分布式表示,增强学习的论文, 主要内容为随着社会和经济的不断发展,人们的生活水平得到了极大地提升,对个人健康和生活问题开始投入越来越多的关注。同时,社会的发展也带来了技术的革新与进步,为了解决医疗费用和需求的增长与优质医疗资源不足之间的矛盾,智慧医疗技术应运而生,这将是一种可以充分利用医学文本知识来模拟医生进行学习和诊疗的技术。而智慧医疗的发展与学习医学知识必不可分,医学知识的来源整体上可概括为医学书籍、临床数据、网络数据三个方面,本文基于医学书籍、网络语料两个来源的数据,对知识图谱构建过程中的关系抽取技术和知识图谱的分布式表示进行了研究。(1)对医学数据进行人工标注,并训练有监督关系抽取模型。提出了基于自注意力机制的分段池化卷积神经网络分类模型,并引入了实体类别等特征使F1值达到了87.2%。(2)对不依赖人工标注的远程监督关系抽取进行了探索。在如何降低远程标注噪声问题方面进行了尝试:先后采用基于规则的方法、基于注意力机制的方法、基于增强学习的方法进行降噪,并探究了负例采样问题,最终的AUC值达到了0.489,也构建了一个涵盖信息较为丰富的基础医学知识图谱。(3)针对构建的基础知识图谱,将其由符号表示转化为更容易给其他任务提供信息输入的稠密低维实值向量表示。基于训练好的向量表示模型来预测知识图谱中的关系和实体,从而达到知识图谱补全的目的。经过上述研究,从各种医学书籍、医学网站出发构建了一个基础版的医学知识图谱。此外,本文构建的远程监督关系抽取框架可以在不需要人工标注的情况下适用于大部分医学语料,甚至是临床文本,这就相当于未来几乎可以将所有的医学知识都囊括到我们现有的知识图谱体系当中。进一步的,通过对知识图谱的分布式表示进行研究,可以直接将图谱的向量表示信息提供给对话问答、诊断推理等任务,从而能更好地发挥智慧医疗的作用,减少医生的诊断次数和诊断时间,促进优质医疗资源的下沉,弥补医疗资源的不足。
结合关系路径的远程监督关系抽取技术研究
这是一篇关于知识图谱,远程监督关系抽取,多示例学习,两跳关系路径,多跳关系路径的论文, 主要内容为知识图谱作为目前人工智能研究和信息智能化服务的核心技术,往往面临着信息不完整问题。基于深度学习的实体关系抽取方法从无标注文本中抽取目标实体对存在的关系,是知识图谱补全的关键技术,但其训练所需的有标注数据通常较难获取。远程监督关系抽取依据远程监督假设,利用现有的知识图谱可以自动获取大量的有标注数据,但该方法也由于远程监督假设本身的缺陷存在着错误标注问题。当前主流的远程监督关系抽取模型往往采用多示例学习(Multi-instance Learning,MIL)方法,即按实体对的不同将所有句子分成一个个的包(Bag),每个实体对的关系作为包的关系标签,再进行后续的降噪和关系分类流程。然而该方法忽略了包与包之间的潜在的信息依赖,导致模型在包中的句子全部标注错误的情况下表现很差,进而影响模型的鲁棒性和整体的关系抽取效果。针对这个问题,本文通过包与包之间潜在的关系路径来建模包级别的信息依赖,按照关系路径的复杂程度分别提出了以下两个模型:(1)融合两跳关系路径的远程监督关系抽取模型。该模型首先通过多示例的学习方法对每个包中直接句子信息进行建模来获取关系标签的概率分布,然后对每个包的实体对之间存在的每一条两跳关系路径信息进行建模,从中选取置信度最高的那条关系路径来代表关系路径模块的推理信息,再通过关系路径编码模块得到关系标签的概率分布,最后采用联合学习框架综合每个包的直接句子信息和对应关系路径模块的推理信息,进而抽取每个包的目标关系。(2)结合多跳关系路径的远程监督关系抽取模型。该模型在两跳关系路径模型的基础上主要针对关系路径编码模块做出以下两点改进。其一是扩大了关系路径挖掘的范围,在每个包实体对之间存在的关系路径中引入三跳和四跳的多跳关系路径,从而建模包与包之间更加复杂的标签依赖信息,增强了关系路径编码模块的性能。其二是改善了多条关系路径信息融合的方式,采用注意力机制考虑所有关系路径的贡献,利用到了更多正例关系路径,从而提高了关系路径表示的效果。本文在Wikidata+NYT远程监督标注数据集上进行了多组对比实验分析,验证了引入关系路径信息的有效性和必要性,同时也设计了消融实验验证了注意力机制融合关系路径信息的有效性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码助手 ,原文地址:https://m.bishedaima.com/lunwen/56285.html