面向文本的实体关系抽取技术的研究与应用
这是一篇关于深度学习,自然语言处理,关系抽取,注意力机制的论文, 主要内容为随着互联网的迅速发展,当今正处在一个信息爆炸的时代,各种信息呈指数级增长,在这其中,文本信息占据了相当重要的组成部分,因此从非结构化的信息中提取出有用的结构化信息显得尤为迫切和重要。信息抽取(Information Extraction,IE)就是旨在从非结构化的自由文本中抽取出结构化信息的技术。关系抽取任务为从非结构化的自由文本中抽取出“实体1-关系/属性-实体2/属性词”的三元组结构化信息,可用于构建知识图谱和辅助信息检索,因此关系抽取在信息抽取中占据了重要地位。在关系抽取任务中,利用依存结构信息提取特征,是多年研究以来被证明较为有效的方法,现有的基于依存结构的模型存在两方面问题,一方面,由于受限于模型结构或减少噪音影响,多数工作采用了剪枝的策略,从而会导致模型无可避免地丢失部分上下文信息,因此模型性能会受到限制。另一方面,基于图卷积的方法虽然可以很好地建模树结构,但却面临稀疏邻接矩阵的问题,节点无法有效地与更多更相关的节点交互。若依存结构信息使用不当,模型效果反而会下降。此外,训练数据分布不均衡的问题也影响了模型性能表现,巨大的数据量差距容易引起预测偏差,但对于关系抽取任务,自然语言处理中常用的数据增强方式又受限制。因此,本文提出了一种新的依存指导的注意力机制,并通过集成预训练语言模型和标签的描述信息来进行数据增强。首先,为了得到更丰富和上下文更相关的语义信息,本工作使用了预训练语言模型提供词义表征向量,通过这种方式,对于数量较小的标签,也能使得模型根据预训练语言模型提供丰富的融有外部知识的语义信息提供较好的鉴别能力。此外,本工作也提出了融合了标签描述信息的标签向量和匹配计算的策略,引入标签的含义信息进行数据增强,进一步提升模型性能。其次,本文提出了一种新颖的双向的依存指导注意力模型,通过注意力机制在依存树结构进行特征提取,根据依存树特征,分别在从上到下和从下到上两个方向建模不同语义范围和粒度的信息流,同时缓解了稀疏邻接矩阵的问题,并使用了距离向量以引入节点与最小依存树的距离信息以代替剪枝操作,从而减少信息损失,提升模型性能。最后,本论文将所研究的算法模型落地应用到了中科院计算所CoreNLU自然语言处理平台中,证明了本论文模型的有效应用价值。
基于增量学习的石化安全领域知识图谱构建技术研究
这是一篇关于HAZOP,领域本体,命名实体识别,关系抽取,知识图谱的论文, 主要内容为在石化安全领域中,安全分析评价信息有着重要的作用。HAZOP分析作为一种针对石化安全提出的分析评价方法在石化安全领域扮演着重要角色。石化过程安全分析信息资源缺乏更加直观有效的组织。多源信息数据之间缺乏有效的资源融合和重用共享。针对此问题本研究以HAZOP分析数据为立足点,开展石化安全领域知识图谱构建技术研究。知识建模参考国标ISO15926进行了HAZOP知识本体构建,定义了七大基本要素,并对每类要素进行了细致完备且具体的说明。最后结合七步法和Protégé完善了PSHPOntology的构建。知识抽取首要任务是实体抽取,也称命名实体识别。本研究针对实体抽取采取了增量学习的策略。考虑HAZOP分析报告的保密性、多源性和可持续更新等特点,提出了知识蒸馏框架下ClimbNER模型,该模型通过增量学习策略能够在学习到新知识的同时不会出现对旧知识的灾难性遗忘。针对HAZOP文本构词的特殊性,通过对图神经网络的创新,本研究提出的模型能够更好的确定实体识别的边界,提高实体识别效率。知识抽取的另一个任务是关系抽取。本研究预定义了石化安全领域的相关关系,为了避免神经网络冗余和无法长信息依赖的问题,采用内衬嵌入的方法实现关系抽取。在知识图谱补全部分,本研究提出基于增量学习的知识图谱动态补全方法,该方法利用基于频率的经验回放和时间正则化,以提高模型在当前和过去时间步长上的性能。最后以煤的间接液化项目油品合成装置中某一节点的HAZOP会议分析记录为案例,进行相关案例分析。首先展示了针对该HAZOP会议分析记录的实体抽取结果,随之将关系加入其中,最终构建石化安全领域知识图谱(PSKG)。PSKG展示了安全分析评价信息间的紧密联系,相比原本的HAZOP会议分析记录,直观展示了石化过程中某个节点所涉及到的各类信息。增强了HAZOP数据之间的信息资源组织,使得HAZOP报告能够共享重用。
基于强化学习的多源域关系抽取模型的研究与实现
这是一篇关于关系抽取,强化学习,领域自适应,远程监督的论文, 主要内容为关系抽取是自然语言处理和理解的重要任务之一,其应用广泛,可为知识图谱、问答系统和社交网络等提供服务。传统模型主要依赖于大量高质量的带标记数据,消耗大量的人力和财力。另一个有希望扩大训练数据的方法是远程监督,其原理是如果在知识库中一个实体对表达了某种关系,那么所有包含此对实体的数据都表达这个关系。理论上这让关系抽取的工作大大简化,然而使用此方法产生的标签是有噪声的,直接使用远程监督标签会导致模型效果变差。除此之外,影响关系抽取模型效果的另一个因素就是特征向量的质量,手工设置的特征向量虽然生成简单但是并不一定有利于正负样本的分类,所以需要重新学习一个有利于提升关系抽取模型效果的特征向量。为了解决上述的问题,本文利用强化学习方法降低远程监督带来的噪声,并使用优化后的标签重新训练得到更利于正负例分类的特征向量,然后利用优化后的标签和特征向量训练得到一个分类准确度更高的关系抽取分类器。本文首先提出了一个基于强化学习框架的标签降噪方法,用来解决远程监督产生的标签噪声问题,该方法可利用正包中假正例和真正例的位置关系,训练一个策略函数作为样本过滤器来有效地过滤正包中的噪声。然后针对源域和目标域中数据的相关性,提出了一个基于领域自适应的特征优化方法,该方法考虑到了源域和目标域的域不变特征,能够学习到更利于分类的特征向量。最后使用优化后的特征向量和标签训练得到最终的关系分类模型。本文将优化后的结果与真值标记和其他关系分类模型的结果进行了比较。实验结果表明,该模型能较好地处理含噪数据的关系分类问题,并能较好地完成领域自适应任务。本文最后还实现了一套基于上述方法的关系抽取模型训练系统,该系统实现了从数据处理、模型训练和结果展示的全自动化流程,并可与用户进行交互来调整模型参数以适应不同的训练任务。
基于卷积神经网络的实体关系抽取方法研究与应用
这是一篇关于命名实体识别,关系抽取,ID-CNN,注意力机制,BERT的论文, 主要内容为随着互联网技术的快速发展,网络资源呈现爆炸式的飞速增长,增加了获取有效信息的难度。在网络新闻中,网络文本具有时效性、准确性、广泛性等特点,是一个重要的信息获取来源。命名实体识别和实体关系抽取从根本上解决的正是文本中目标实体抽取及实体之间的关系分类问题,它能够把非结构化的数据转化成三元组结构化数据的方式进行存储,是构建领域知识图谱的核心基础过程,对人们未来的行动和决策也具有很强的指导意义。本文针对实体识别和关系抽取两个任务,首先设计了融合传统词向量和BERT字向量的词嵌入模块,引入了各层次的向量信息,然后搭建了基于ID-CNN-CRF的实体识别模型。为了识别2022年北京冬奥会相关体育新闻文本中的关键类型实体,手动标注构建了体育类新闻实体识别数据集,并与其它多个模型在多个数据集上进行了对比实验。接着在该实体识别模型的基础上,通过联合学习的方式进行实体关系联合抽取,解决了基于管道方式抽取过程中存在的误差传播和实体冗余的问题,并引入了注意力机制来提高抽取效果。最后针对实体关系重叠问题,将实体识别的多分类问题通过多头选择转化为多标签问题,可以为某个实体选择与其他实体存在的多重关系,最后在开源关系抽取数据集上验证了该模型的有效性。
基于关系抽取和路径推理的知识图谱补全
这是一篇关于知识图谱补全,关系抽取,关系路径推理,提示学习的论文, 主要内容为知识图谱提供了一种直观地组织、管理和利用海量知识的能力,在电商、军事、医疗等领域已经得到了广泛的应用。公安工作更多关注人、事、地、物、组织等关键要素,以及它们之间的关系。在科技强警背景下,知识图谱具有巨大的发展潜力和利用价值。但受当前知识图谱构建技术制约,大量实体之间隐含的关系没有被充分发掘,需要进行知识图谱补全。本文提出了三种知识图谱补全算法,利用外源文本数据和知识图谱实体间的关系路径对知识图谱进行补全,具体工作与创新如下:首先,针对新增外源文本数据中的知识在知识图谱中的补充利用问题,本文提出一种无监督模型,运用Prompt技术和预训练语言模型从文本数据中抽取结构化知识三元组,实现对知识图谱的补全。该模型通过对提示模板的设计,以较低的训练成本实现了对预训练语言模型的有效利用。在NYT10数据集上进行了关系抽取实验,结果表明该模型与当前最优的基于聚类的无监督关系抽取模型HiURE相比B-cubed值提升了4.2%,与基于VAE架构的无监督关系抽取模型UREVA相比B-cubed值提升了9.5%;此外还进行了迁移学习实验,在NYT10数据集上训练完毕后迁移到Wiki-80数据集上,通过少量样本的训练就取得了较好的关系抽取效果。其次,针对已有的基于关系路径推理的知识图谱补全算法无法兼顾图谱局部特征与全局特征的问题,本文提出了一种对实体间的关系路径进行层级划分并利用多层注意力机制和双向长短期记忆神经网络进行特征提取的算法。在NELL-995和FB15k-237数据集上进行链路预测实验,结果表明,该算法与已有的基于关系路径的知识图谱补全算法CNN-BiLSTM等相比,MAP值提高了1.8%,Hits@1指标提高了1.4%;在kinship数据集上,其Hits@3值达到了0.988。此外,基于关系路径的知识图谱补全方法往往局限于对目标实体之间存在的关系路径进行特征提取和关系预测,忽视了关系路径邻接实体关系。针对该问题,本文提出了一种通过把关系路径的邻接实体关系融入关系路径的生成、编码过程,再基于该关系路径信息进行知识图谱补全的算法。在多个数据集上均取得了较好的实验效果,证明其能够利用关系路径邻接实体关系信息对知识图谱进行补全。最后,设计并构建了基于关系抽取和路径推理的知识图谱补全原型系统,对论文提出的算法模型进行应用验证和效果展示。
面向中医领域知识图谱构建的关键技术研究及应用
这是一篇关于实体识别,关系抽取,知识图谱,智能问答,语义分析,中医药信息的论文, 主要内容为中医经过几千年的传承和发展,具有自身独特的完备理论体系和临床实践指导意义。中医研究者和爱好者注重从中医积累的文献经验中寻找依据和指导。经过几千年累积,中医领域产生了大量文本数据,这些数据语义信息丰富且关系复杂。为响应国家提出的中医药发展战略要求,顺应“互联网+中医药”的产业发展模式,促进推动中医药现代化发展。本文主要围绕中医知识图谱构建和智能问答模型的建立展开,提出了基于知识图谱的中医智能问答模型。本文主要的工作如下:(1)为了解决中文分词不当给实体识别带来不利影响,本文提出了基于字向量的融合条件随机场(Conditional Random Field,CRF)的双向长短期记忆网络(Bidirectional Long Short-Term Memory Network,BLSTM)的中医命名实体识别模型(BLSTM-CRF)。该部分通过整理中医书籍《中医证候鉴别诊断书》《中医150证候辨证论治辑要》,构建中医实体抽取语料库;以字向量作为双向长短期记忆网络的输入,利用双向LSTM提取句子特征;最后接入CRF标签推理,解决输出标签之间的依赖问题。用多种算法在中医实体语料库上做了对比实验,其结果表明,基于字向量的BLSTM-CRF模型优于其他算法,并通过实验找到最适合中医实体识别的LSTM神经网络参数。(2)为了解决Softmax作为LSTM分类器导致实体关系识别模型泛化能力不足的问题,本文提出基于梯度提升树(Gradient Boosting Decision Tree,GBDT)算法的双向LSTM模型。在使用双向LSTM进行特征提取的同时,利用Attention机制抓取关键字词对输入句子的理解,解决该模型容易被无关词干扰的问题。特征提取后采用GBDT对关系分类训练预测。由于GBDT的基础模型具有低方差高偏差等优势,使得集成模型更具稳定性。通过对中医关系语料库和其他两个公开领域语料库实验的比较,证明本文提出的改进模型在精确率、召回率和F值上均有明显提高,是一种适合于中医特定领域的关系抽取模型。(3)为了更好的表示中医实体及实体间的关系,本文通过整理抽取到的实体和关系,形成知识图谱的模式层结构。在进行知识图谱构建的同时,利用TF-IDF算法对证候-症状、证候-舌像、证候-脉象三类关系之间的贡献权值计算,方便后续中医辩证;然后将六类实体和五类关系以及算到的权重导入到图形数据库中完成知识图谱构建,本知识图谱形成的具有的规模为节点总数17618个,关系总数为83335条。(4)为快速获取中医知识,弘扬中医文化,本文构建了基于知识图谱的中医智能问答模型。该部分先对问题进行实体识别、分词等操作,进而对问题抽象化表示,接着提出一种基于GBDT算法的问点识别,并且构建了中医领域内的辨证模型和施治模型,本文的智能问答模型适应于简单问题和复杂问题。综合上文提出的关键技术,采用PYTHON编程语言和相应的开发工具,设计并开发了基于知识图谱中医智能问答系统。
机场不正常事件信息抽取技术研究
这是一篇关于航空安全自愿报告,命名实体识别,关系抽取,知识图谱,风险矩阵的论文, 主要内容为航空安全自愿报告是由民航业内人士上报的文本报告,其中记录着影响民航运行安全的隐患事件,可作为主动防范民航事故的重要依据。针对航空安全自愿报告,采用自然语言处理技术,开展了命名实体文本信息及其关系抽取,对构建机场不正常事件知识图谱具有重要的支撑作用。首先,针对航空安全自愿报告非结构化文本问题归纳提出了机场不正常事件信息抽取技术路线;其次,针对命名实体识别模型中自注意力机制的权重分配过度集中于单个字且权重分散,以及自注意力机制依赖大量训练样本的问题,提出了基于多尺度注意力机制的命名实体识别方法代替人工标注报告命名实体类别,编写实验验证了模型信息抽取效果;第三,结合模型预测分数设计了样本选择策略,开展了模型对样本中稀疏命名实体训练不足问题研究,降低了人工标注训练集样本量;第四,针对报告的语义相似性问题,提出了基于外部注意力机制的关系抽取方法代替人工标注命名实体关系类别,研究构建了关系抽取模型;最后,运用未加入模型训练集的报告验证了机场不正常事件信息抽取模型的泛化能力和识别效果,并将信息抽取结果进行了可视化处理和风险分析。本文综合命名实体识别、关系抽取、知识图谱、风险矩阵等方法,提出了一种针对航空安全自愿报告信息抽取机场不正常事件要素的方法,为开展安全管理提供支持。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码导航 ,原文地址:https://m.bishedaima.com/lunwen/46212.html