融合多头自注意力和实体特征的远程监督关系抽取
这是一篇关于关系抽取,远程监督,多头自注意力,实体特征的论文, 主要内容为关系抽取作为自然语言处理领域中一项重要的基础任务,目的是判断出文本语句中实体对之间存在的语义关系,在知识图谱、智能问答等应用领域中发挥着重要的作用。传统的基于有监督的关系抽取方法完全依赖人工标注来获得训练语料,需要花费大量的时间,消耗大量的人力资源,因此,通过自动标注来获取大量语料的远程监督方法逐渐成为关系抽取任务的热点。远程监督的前提假设是:如果在知识库中的一个实体对存在某种关系,那么所有包含有这个实体对的文本句子都表达着这种关系。基于这种假设,通过远程监督可以在短时间内构建大量的训练语料,但无法避免其产生的错误标注的问题,导致数据集中存在大量噪声。如标注句子内部存在大量和关系表示无关的噪声词,影响了神经网络模型获取句子语义表示的准确性。另外,现有的采用句子级别注意力机制的关系抽取模型直接以包含大量噪声的实体关系标签为依据,难以合理地分配不同句子对于最终关系预测的贡献度。面向以上挑战,本文提出了相应的解决方案,主要的创新点和贡献如下:(1)提出了一种融合多头自注意力机制的关系抽取模型,通过卷积操作提取文本特征之后,采用多头自注意力机制来降低句子内部无关噪声词对于句子表示的负面影响,不仅得到了更优的句子语义表示,而且避免了关系标签噪声对于词注意力分配的影响。(2)基于以上关系抽取模型,进一步融合实体的特征信息,提出了一种融合实体特征的关系抽取模型。基于知识表示学习Trans E算法的思想,本文在选择不同句子生成实体包特征时,将句子中头、尾实体经过双线性变换后的实体隐含语义表示作为依据,使用缩放点积注意力来动态分配不同句子对于最终关系预测的贡献度,过滤了大量实体关系标签噪声,进一步缓解了远程监督噪声数据带来的不利影响。另外在网络的输入层,除了常用的词向量和位置向量外,额外加入了命名实体特征和核心实体词特征,进一步丰富了句子的输入表示,有助于模型获取更多的有效特征。本文围绕远程监督关系抽取任务,在降低远程监督噪声影响方面提出以上研究方法,并进行了详细全面的实验。在经典数据集NYT-Freebase上的实验结果表明:相较于基线模型,本文提出的方法更具有优势,进一步提升了关系抽取的性能,在AUC值的表现上,本文方法达到了38.2%,相较于PCNNs+ATT模型提升了4.1%,相较于BGWA模型提升了2.2%,验证了提出方法的有效性。
基于内外部语义特征及优先注意力机制的远程监督实体关系抽取方法及应用研究
这是一篇关于信息抽取,关系抽取,远程监督,分段卷积神经网络,注意力机制的论文, 主要内容为关系抽取作为信息抽取领域的核心任务,从海量的非结构化文本数据中抽取出实体间关系,形成结构化的三元组信息,为知识图谱构建、推荐及搜索系统、自动问答系统和文本摘要等应用提供关键技术支撑。远程监督学习方法利用知识库对齐文本可以便捷地构建出大规模的开放领域语料集,但大量噪音数据的产生会导致关系抽取模型难以收敛,抽取效果较差。另一方面,现有的深度学习模型自动学习特征的能力有所欠缺,导致抽取的句子特征信息不完整,进而影响关系抽取模型的准确性。因此,研究并设计能够准确挖掘句子特征且过滤噪声数据的关系抽取方法是信息抽取领域的重要挑战。本文就如何提高分段卷积神经网络(Piecewise Convolutional Neural Network,PCNN)抽取句子特征的准确性以及如何缓解噪声数据的影响两方面展开了研究。本文的主要贡献包括:1.为了准确且完整地提取句子的特征信息,本文提出基于内外部语义特征的远程监督关系抽取方法。外部语义特征指利用Word Net词典查询实体的上位词集合作为背景特征。内部语义特征指基于语料集计算单词IDF值并在归一化后加入到词向量中作为单词重要性特征,突出非实体词在构成句子向量中的贡献。实验结果表明,在标准数据集纽约时报(New York Times,NYT)和Freebase(NYT-FB)上,使用PCNN提取句子特征向量时加入外部语义特征比仅使用PCNN在P@100、P@200、P@300指标上提高了2.3%5.9%,并且在精确度/召回率(Precision/Recall,P-R)曲线上有更好的表现;使用PCNN结合内部语义特征比仅使用PCNN在平均P@N指标上提升了3.3%,且在PR曲线上同样有更好的表现;在PCNN上加入内外部语义特征后在平均P@N值上达到了74.3%,相较于前面两种方法都有所提高,且获得了表现最好的P-R曲线。2.为了过滤数据集内的大量噪声数据,本文利用多示例学习方法,把拥有相同实体对的所有句子作为一个包来处理,输出包的特征向量代替句子特征向量。本文改进选择性注意力机制(Selective Attention,SATT)中的权重分配方式,提出优先注意力机制(Preferential Attention,PATT),使得所有句子中置信度低于平均值的句子分配到的权重为零,间接地提高置信度较高的句子权重,从而降低了噪声句子的影响,提升包的特征向量的准确性。实验结果表明,同样在PCNN结合内外语义特征并使用多示例学习的情况下,PATT相较于SATT在P@100、P@200、P@300指标上提高了2%5%,在平均P@N值上提升了3.6%,并且P-R曲线更优。另外,将PATT与内外部语义特征方法融合,设计多组实验对比内部语义特征和外部语义特征对关系抽取的贡献。3.为了体现出关系抽取模型实用价值,本文将基于内外部语义特征及优先注意力机制的实体抽取模型应用于金融大数据知识图谱构造的项目中。本模型作为该项目的系统中核心模块之一,将已进行实体识别的句子输入到系统中后提取实体和关系的三元组用于构建知识图谱,最后设计前端页面展现知识图谱可视化的形式。
面向知识图谱的时间问题回答语料库构建研究
这是一篇关于时间问题语料库,远程监督,谓词识别,维基数据,维基百科的论文, 主要内容为面向知识图谱的复杂问题回答技术的研究是人工智能领域和信息检索领域的重要研究热点。时间问题是带有时间表达约束的复杂问题,是复杂问题的一个重要子类。时间问题回答技术的研究需要特定的方法和特定的语料库,而现有时间问答语料库的问题数量有限,且Freebase知识图谱停止了更新。时间问答语料库的构建既可以为时间表达识别、时间问题分类等研究提供数据资源,也可以为时间问题回答模型的训练提供数据资源,并且也能提高人工标注问答数据的效率。该任务对智能回答技术的研究具有十分重要的意义,因此本文旨在研究面向知识图谱的时间问题回答语料库构建技术。本文提出了两种时间问题语料构建方法。一种是面向现有数据集的时间问题语料构建方法,该方法主要是从现有时间问题数据集中人工总结时间问题识别模式,采用模式匹配的方法从现有问答数据集中抽取时间问题答案对,并与朴素贝叶斯、K最近邻、支持向量机、逻辑回归四种传统机器学习方法进行实验对比和性能评价,针对现有问答数据集的问题答案来自不同知识图谱的问题,将问题的答案进行了标准化,即统一链接到维基数据。问题生成是目前研究的热点之一,而目前没有针对时间问题自动生成方法的研究。因此本文提出了另一种面向维基数据和维基百科的时间问题语料构建方法,该方法主要是以现有时间问题数据集作为种子,利用问题答案对从知识图谱中获取<主、谓、宾>三元组,以此扩展更多的三元组;并采用远程监督、谓词识别和时间表达识别的方法,从维基百科中抽取包含三元组实体、关系和时间表达的陈述句;针对从维基百科获取的句子中存在非三元组事实关系的表达且句子结构复杂的问题,提出了陈述句简化算法,把复杂句简化和分解为简单句;最后利用基于句法依存关系和规则的方法生成时间问题答案对,并与最新的问题生成方法进行实验对比和性能评价。综上,面向现有数据集的时间问题语料构建方法构建了5828个时间问题答案对,基于模式匹配的时间问题识别方法的准确率为89.04%,比传统机器学习方法性能更好。面向维基数据和维基百科的时间问题语料构建方法,以现有时间问题语料库中的36个谓词作为种子,自动生成了8066个时间问题答案对,实验结果表明生成的时间问题在句法、语义和流利度三个方面较其他方法效果更佳。最后为了大家能更好地了解本文提出的方法,并使用本文构建的语料库,本文设计并实现了时间问题语料库构建展示系统。
基于门控和类型注意力机制的关系抽取模型研究
这是一篇关于线性衰减,门控Transformer,类型注意力,关系抽取,远程监督的论文, 主要内容为伴随着互联网的快速发展,非结构化的文本数据快速增长,如何高效精准地定位关键词,成为了我们探索的一个重要科研方向。作为信息抽取的主要研究方向,关系抽取正在知识图谱、网页搜索等方面发挥着巨大的作用。得益于启发式的远程监督方法,远程监督关系抽取可以在无需人工帮助的情况下自动识别实体对关系。随着机器学习和深度学习的快速发展,关系抽取利用卷积神经网络提高了预测的准确率。尽管如此,现有的模型依然存在以下问题:卷积神经网络可以抽取到文本单词近距离的信息,却无法获取上下文中的长距离依赖信息;Transformer可以有效地整合全局语义信息和本地语义信息,但忽视了和上下文中平均语义之间的关系;即使不同的实体拥有相同的类型,模型应该使用不同的权重表示实体类型,强调重要的类型对当前实体的贡献。针对如上提出的不足之处,本文贡献了以下创新点:(1)提出了将线性衰减实体和门控Transformer相整合的模型该模型除了使用传统的词向量和位置向量作为输入向量,还为每个单词添加了线性衰减向量,使得每个输入向量在考虑词/位置向量的同时,兼顾了每个单词和实体对之间线性衰减关系,而线性衰减关系则和单词与实体对之间的距离成负相关。在使用Transformer有效地结合全局和本地语义关系的同时,引入了门控的概念,使得Transformer也注重了平均语义信息。本模型使用句子层级和包层级的注意力机制,自动地降低了错误数据对模型准确率的影响。在通用数据集上的实验结果表明,该模型可以较好地进行关系分类,精确率和AUC值优于大多数使用Transformer的模型。(2)提出了基于动态权重的实体类型模型该模型引入了额外的先验知识,通过动态权重的注意力机制,提取出每个实体独一无二的特征向量。实体的类型可以有效地缩小关系抽取结果的范围,但是平等地对待每一种类型并不能发挥实体类型的最大效果。该模型使用注意力机制,动态地计算每个类型权重,得到每个实体对应的类型特征向量。根据实验结果,我们可以得出:基于动态权重的实体类型可以进一步提升模型的AUC值。
基于ResCNN的实体关系抽取方法研究
这是一篇关于实体关系抽取,远程监督,卷积神经网络,残差网络,循环神经网络的论文, 主要内容为随着互联网的高速发展和普及,从海量非结构化的数据中获取目标信息已经变得十分困难。信息抽取需要将文本信息结构化处理,实体关系抽取作为其关键一环,目的是抽取同一句子中实体对的语义关系,同时也是自然语言处理(NLP)领域的热点问题。实体关系抽取对于知识图谱的构建具有重大意义,有利于智能推荐、信息检索等领域的发展。在实体关系抽取任务中,有监督的方法需要人工进行数据标注,费时费力且成本高昂,还十分依赖NLP工具,这都成为阻碍该领域发展的一系列因素。远程监督的方法虽然能自动标注语料,但又存在大量错误标签。随着深度学习在图像领域取得成功,越来越多的神经网络模型纷纷应用于实体关系抽取中,对特征进行充分学习。卷积神经网络虽然提取局部特征的能力很强,但是不易挖掘数据样本中的长距离依赖关系。而构建深层网络时常会出现网络退化问题。针对上述问题,本文主要工作如下:针对浅层网络模型的特征提取较弱问题,本文利用残差学习设计卷积块的方式来构建残差卷积神经网络,一方面能有效避免网络退化问题,另一方面在不添加额外参数的情况下,能很好的将底层特征传递至高层。同时加入挤压-激励块对特征进行重新校准以增强有效特征的传递,进一步加强了网络的表征能力和泛化能力。针对卷积神经网络不易提取长距离依赖信息的问题,本文提出使用双向长短期记忆网络来获取样本数据中长距离的上下文信息,同词向量和位置向量一并作为向量表示层的输出,为后续句子编码器提供丰富的特征。在池化阶段采用分段最大池化策略来替代卷积神经网络在处理NLP任务时普遍使用的最大池化方式,以保留实体对间的结构特征。针对远程监督数据集存在大量错误标注的问题,本文提出在网络模型的池化阶段后面引入句子级的注意力机制,使关系正确的句子获得高权重,而给带有错误标签的句子设置低权重,从而降低噪声数据的干扰,提高模型的准确率。针对远程监督数据集存在样本不均衡和难易样本问题,本文提出结合软标签和聚焦损失函数的方法来改进损失函数,之后根据样本的均衡程度以及样本学习的难易程度进行加权,从而提升模型性能。
医疗知识图谱中实体关系抽取技术研究
这是一篇关于知识图谱,实体关系抽取,图卷积网络,远程监督,注意力机制的论文, 主要内容为随着生物医学和互联网技术的发展,近年来生物医学领域相关资料、文献、数据等数字化文本信息呈现出指数级增长趋势。将大量医疗文本通过自然语言处理技术转化为医疗资源,提高医疗质量和健康水平,是一项非常重要的工作。本文对医疗知识图谱和实体关系抽取技术进行了深入研究,针对数据标注问题和模型可解释性问题进行了研究,并在最后构建了一个医疗知识图谱。本文的主要研究如下:(1)有监督的算法对于标注数据有很强的依赖性,而人工标注数据费时费力,代价昂贵。针对大规模数据标注耗时耗力问题,本文提出了一种基于MIL(Multiple Instance Learning)的远程监督关系抽取算法MILRE(Multiple Instance Learning Relation Extraction)。该模型利用基于段落的编码机制来嵌入上下文信息,通过使用自注意力机制放宽了传统远程监督假设,利用知识蒸馏来缩小机器标注的误差。在数据集NYT-10上,MILRE的AUC分值达到了54.6,P@M分值为86.0,能够在数据自动标注研究中发挥有效作用。(2)医学领域的实体关系复杂,关系预测工作对模型的可解释性要求较高,现有的模型难以满足需要,为此本文提出了一种基于GCN(Graph convolutional network)的医疗实体关系抽取算法MGCN(Medical Graph convolutional network)。该模型使用共现图和图卷积网络建立实体间的关系网络,可以结合上下文信息,为医学实体的关系预测提供全局可解释性;使用开放世界假设构建相关实体间的潜在关系,并通过知识-意识注意力机制给出所关注的实体对的关系预测,可以有效解决跨句子级别的关系抽取问题。在数据集CTF上,MGCN的F1分值达到了0.831,证明其在医学实体关系抽取方面的有效性,具有重要的医疗意义。(3)本文利用MILRE构建了一个电子信息健康记录语料库,将MGCN在其上进一步训练并进行关系抽取工作得到(实体,关系,实体)三元组,之后将三元组相关信息存储在图数据库Neo4j中,构建了一个医疗知识图谱并进行了可视化处理。本文的研究结果在一定程度上为学者和医生等的研究工作提供了便利,对于医学数据挖掘和知识发现研究的展开有着非常重要的意义和应用价值。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码码头网 ,原文地址:https://m.bishedaima.com/lunwen/47991.html