基于BERT与知识校验的中文实体关系抽取
这是一篇关于关系抽取,预训练语言模型,命名体识别,远程监督,三元组分类的论文, 主要内容为实体关系抽取是指从自然语言文本中抽取形如(客体,关系,主体)的实体关系三元组,旨在使机器具备从海量文本中自动构建知识的能力;另一方面,预训练语言模型在很多自然语言处理任务上取得了很好的效果。本文工作结合深度双向转换器编码器表示(BERT:Bidirectional Encoder Representations from Transformers),提出了两种解决多关系多实体,中文模式(schema)约束的实体关系抽取的方法。首先本文提出了先关系后实体的层次抽取方案。这是一个两阶段流水线模型,在第一阶段,通过BERT编码器进行关系多标签分类任务;在第二阶段,使用上一阶段预测的关系标签作为先验信息与原始文本拼接输入BERT进行实体识别,采用序列标注方法预测实体标签实现三元组抽取,最后得到实体与关系的匹配三元组。同时借鉴多头选择的思想提出了基于多头选择的联合抽取方案,这是一个端到端的方法,联合实现关系抽取与实体抽取。模型使用BERT作为编码层,后接条件随机场(CRF:conditional random field)用于实体命名体识别任务,最后通过多头选择方法预测输入词序列每个词最有可能的对应头向量和对应关系标签。在SKE中文信息抽取数据集上,通过知识蒸馏和模型集成,上述两种方法在F1指标上对于基线模型有近10个百分点的提升。最后,文章创新性地提出了结合知识库先验信息的知识校验方法。一般的实体关系抽取只利用了目标语料本身的信息,却忽视了知识库中的大量先验信息,如知识库的局部拓扑结构,知识库实体关系的分布信息等。模型第一步借鉴远程监督思想,补充模型未预测出但存在于训练集的三元组;第二步,将筛选高质量三元组任务转换为三元组二分类任务,判断三元组为真的置信度。模型使用XGBoost作为分类器,构造了基于知识库实体关系条件分布SDValidate,基于知识嵌入Trans E三元组评分,深度模型三元组置信度得分,排名等多个特征,最终使模型在F1提升2到4个百分点。同时,采用SHAP值解释了模型的特征重要性。综上所述,本文提出了两种基于BERT预训练语言模型解决多关系多实体抽取任务,同时设计了知识校验模块用于三元组补充与筛选。通过对比实验验证了方法的有效性与普适性,可以运用于问答系统,推荐系统等多个领域中。
基于改进序列标注模型的医学文本命名实体识别
这是一篇关于医学文本,命名体识别,多粒度文本,注意力机制,问答系统的论文, 主要内容为随着神经网络模型的发展,神经网络与传统序列标注模型的组合逐渐替代了传统的基于隐马尔科夫或条件随机场的序列标注模型,成为命名实体识别领域的主流方向。医学文本来自于医学专业书籍,是构建医学知识图谱的重要资料。而医学文本命名实体识别对医学知识图谱的构建起着重要的作用,基于此背景,本文针对医学领域的文本的命名实体识别展开研究。首先,本文构建了多粒度文本特征融合的医学文本命名实体识别模型。因为多粒度文本特征可以解决未登录词问题并丰富词语的表征,所以,本文以结合BiLSTM(Bi-directional Long Short-Term Memory)和 CRF(Conditional Random Field)的命名实体识别模型为基础,融合字符、亚词、词级别的特征,并分别比较了上下文无关的GloVe(Global Vectors)词向量和上下文相关的BERT(Bidirectional Encoder Representation from Transformers)词向量在命名实体识别上的效果。实验表明上下文相关的词向量和多粒度文本特征融合可以提升命名实体识别的效果。其次,针对长序列建模问题,本文构建了基于多头注意力机制的医学文本命名实体识别模型。由于LSTM(Long Short-Term Memory)在建模长序列时容易丢失序列内容的长期依赖关系,所以本文使用基于多头注意力机制的Transformer编码器结构替代BiLSTM进行序列建模。实验表明Transformer编码器结构可以提升命名实体识别的效果。最后,本文研究了在添加额外信息的条件下的医学文本命名实体识别问题。本研究在原始的命名实体识别问题的基础上,结合医学领域文本的特点,分别添加疾病名称和实体类型这两种额外信息,最终将问题转化为文本阅读理解问题,并构建基于问答系统的医学文本命名实体识别模型。实验表明,添加额外信息可以提升命名实体识别的效果,且实体类型信息的加入方案对命名实体识别的效果提升最大。
基于预训练模型的实体关系联合抽取技术研究
这是一篇关于命名体识别,关系抽取,预训练模型,注意力的论文, 主要内容为互联网技术的发展已逐渐改变了人们获取信息的方式,如何从非结构化文本信息中获取关键信息以构建知识图谱面临巨大的挑战。作为知识图谱的基础任务,命名体识别和关系抽取的目的在于从非结构化文本中分别抽取实体和实体之间的关系,从而为语义检索、知识问答、逻辑推理等下游任务提供重要的支持。本文在对实体关系联合抽取任务研究时发现,现有的联合抽取模型由于存在误差传播、信息冗余等问题,导致其很难有效地抽取出语句中的所有三元组,特别是重叠三元组。针对上述问题,本文从关系的角度出发,总结出了一种新颖的联合抽取范式,即基于关系识别实体。首先,本文基于“不同的语句上下文,关系应具有不同的表征”的假设,提出了一种新颖且高效的模型输入形式,旨在根据语句上下文学习关系表征。然后,本文基于“语句中涉及重叠三元组的关系,它们的表征更相似,且与同一语句中的其他关系的表征不相似”的假设,提出了一个关系对比预训练模型(Relation Contrastive BERT,RCBERT),该模型使用对比学习的方法进行训练,进一步学习关系表征之间的差异性。最后,本文将RCBERT作为编码器,并基于“语句中涉及重叠三元组的关系,它们之间存在相关性”和“在不同的关系下,语句中的词应具有不同的表征”这两个假设,提出了一个多级注意力联合抽取模型(Multi-Level Attention Model,MLA),通过关注语句与关系、关系与关系以及关系与词之间的相关性,实现对重叠三元组的有效抽取。为了更好地评估本文所提出模型的有效性,本文对RCBERT模型学习到的关系表征进行了相似性度量,证明了其学习到的所有关系表征具有差异性;对于MLA模型,本文在NYT和Web NLG数据集上进行了对比实验和扩展实验,证明了其能有效地抽取重叠三元组。最后,本文还对MLA模型进行了消融实验,验证了各组件对模型的重要程度。
基于自然语言处理的沉积物知识图谱构建关键技术研究
这是一篇关于沉积学知识图谱,自然语言处理,命名体识别,关系抽取的论文, 主要内容为沉积物数据揭示了地球生命的进化历程,其关键信息(沉积时间、沉积物种类、地理空间信息等)通常记录于科技文献中。自然语言处理技术(如命名体识别、关系抽取等)通过挖掘文献中沉积物关键信息,提取其中关联关系,构建沉积物知识图谱,有利于促进沉积物知识共享。然而,沉积学文献呈现多源异构特征,使得提取沉积物实体数据体量庞大,时间损耗高,文献上下文之间语义关系耦合度较高,且实体间关系无法准确判别。因此,沉积物知识图谱构建面临以下挑战:(1)沉积语料库缺失,实体间存在词性歧义,无法构建有效的命名体识别模型。(2)沉积物关系抽取缺乏知识体系先验知识,隐藏关系表征能力弱,无法被模型准确提取。鉴于此,本文对基于自然语言处理的沉积物知识图谱关键技术开展研究工作,研究内容主要包括:(1)为了解决沉积物领域语料库缺失和实体词性歧义的问题,本文提出一种基于词性正则分析与双向长短期神经网络和条件随机场模型(Bidirectional Long Short Term Memory-Conditional Random Fields,Bi LSTM-CRF)的命名体识别模型。具体而言,首先,根据沉积物词组特征设计专家词典与词性正则匹配公式,提出了一种基于沉积学的语句切词算法。其次,将形成的沉积学领域先验知识,与多源异构文献进行词组与词性的组合提取,构建结构化沉积物语料库。最后,为了消解实体词性歧义问题,将词性与Bi LSTM-CRF相结合,从而保证实体识别的稳定性。实验结果表明,该模型实现在语料库可扩展的同时降低实体识别的延迟,并优化了未登录词的辨别能力。(2)针对传统关系抽取模型对上下文关系表征能力弱,且难以利用先验知识,导致跨语句关系抽取抗干扰性差的问题,本文提出了一种基于双向门控循环神经网络和条件随机场的注意力机制(Bidirectional Gated Recurrent Unit Neural Network-Conditional Random Fields-Atttention,Bi GRU-CRF-Att)的聚类关系抽取模型。具体而言,首先,将沉积物命名体识别模型作为上游任务,获取包含沉积物实体的上下文语句。进而,基于Bi GRU-CRF-Att挖掘实体间关系。最终,用聚类算法延伸沉积物之间的关系属性。实验结果表明,该模型在抽取隐藏关系的同时提升了对上下语句间冗余噪声的鲁棒性。
基于自然语言处理的沉积物知识图谱构建关键技术研究
这是一篇关于沉积学知识图谱,自然语言处理,命名体识别,关系抽取的论文, 主要内容为沉积物数据揭示了地球生命的进化历程,其关键信息(沉积时间、沉积物种类、地理空间信息等)通常记录于科技文献中。自然语言处理技术(如命名体识别、关系抽取等)通过挖掘文献中沉积物关键信息,提取其中关联关系,构建沉积物知识图谱,有利于促进沉积物知识共享。然而,沉积学文献呈现多源异构特征,使得提取沉积物实体数据体量庞大,时间损耗高,文献上下文之间语义关系耦合度较高,且实体间关系无法准确判别。因此,沉积物知识图谱构建面临以下挑战:(1)沉积语料库缺失,实体间存在词性歧义,无法构建有效的命名体识别模型。(2)沉积物关系抽取缺乏知识体系先验知识,隐藏关系表征能力弱,无法被模型准确提取。鉴于此,本文对基于自然语言处理的沉积物知识图谱关键技术开展研究工作,研究内容主要包括:(1)为了解决沉积物领域语料库缺失和实体词性歧义的问题,本文提出一种基于词性正则分析与双向长短期神经网络和条件随机场模型(Bidirectional Long Short Term Memory-Conditional Random Fields,Bi LSTM-CRF)的命名体识别模型。具体而言,首先,根据沉积物词组特征设计专家词典与词性正则匹配公式,提出了一种基于沉积学的语句切词算法。其次,将形成的沉积学领域先验知识,与多源异构文献进行词组与词性的组合提取,构建结构化沉积物语料库。最后,为了消解实体词性歧义问题,将词性与Bi LSTM-CRF相结合,从而保证实体识别的稳定性。实验结果表明,该模型实现在语料库可扩展的同时降低实体识别的延迟,并优化了未登录词的辨别能力。(2)针对传统关系抽取模型对上下文关系表征能力弱,且难以利用先验知识,导致跨语句关系抽取抗干扰性差的问题,本文提出了一种基于双向门控循环神经网络和条件随机场的注意力机制(Bidirectional Gated Recurrent Unit Neural Network-Conditional Random Fields-Atttention,Bi GRU-CRF-Att)的聚类关系抽取模型。具体而言,首先,将沉积物命名体识别模型作为上游任务,获取包含沉积物实体的上下文语句。进而,基于Bi GRU-CRF-Att挖掘实体间关系。最终,用聚类算法延伸沉积物之间的关系属性。实验结果表明,该模型在抽取隐藏关系的同时提升了对上下语句间冗余噪声的鲁棒性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码客栈 ,原文地址:https://m.bishedaima.com/lunwen/56164.html