基于深度学习的事件抽取技术研究
这是一篇关于深度学习,事件抽取,BERT预训练模型,特征融合,图卷积神经网络,注意力机制,双向长短期记忆模型的论文, 主要内容为事件抽取是指在含有事件信息的非结构化文本中,自动检测并抽取出事件参与者、时间、地点等用户感兴趣的信息。事件抽取是其它高阶自然语言处理任务的基础,已被广泛用于知识图谱、文本自动摘要、文档检索、推荐系统和情感分析等领域。近年来深度学习模型在自然语言处理领域中表现卓越,基于深度学习的特征提取技术理论研究也变得更加成熟。本文就事件抽取任务中深度学习模型的应用问题展开深入研究,主要研究内容如下:(1)针对传统事件抽取过程出现的一词多义、特征提取不充分等问题,提出一种基于BERT预训练模型和多特征融合的事件抽取方法,将事件抽取过程分成两步:事件触发词抽取和事件元素抽取。在事件触发词抽取阶段,首先利用BERT预训练模型进行文本向量化表示;然后,融合卷积网络提取的词汇级别特征和图卷积网络提取的句子级别特征得到新的事件信息特征;最后将新的事件特征输入分类器,为事件句序列进行触发词标签预测,并利用条件随机场模型对预测标签进行约束。在事件元素抽取阶段,抽取过程与触发词抽取大致相同,唯一的区别是在融合词汇特征和句子特征时,需要加上触发词所代表的事件类型特征。在ACE2005英文数据集上进行实验验证,事件触发词分类任务和事件元素分类任务在测试集上的F1值分别为71.1%和56.4%。(2)从优化事件抽取过程的角度出发,提出无触发词的事件抽取思想,摒弃事件触发词位置的检测,利用组合标签策略将事件类型标签和事件元素角色标签重新组合成新的标签,利用Attention机制和Bi LSTM模型对事件进行新标签的序列标注,从而达到事件类型分类和事件元素的抽取目的。首先,利用BERT模型对文本进行向量化表示,然后利用Bi LSTM模型对事件序列进行双向编码,并引入注意力机制计算序列单词对事件特征的贡献度。通过单模型实现事件抽取任务,并采用Du EE中文数据集验证了提出方法的有效性。
面向城镇管理的居民投诉案件智能分析
这是一篇关于居民投诉案件,事件抽取,自训练,相似案件的论文, 主要内容为事理图谱是一种以事件为核心的知识图谱,能够提取文本中的关键信息,并将实体和事件之间建立关联,从而形成一个结构化表达的事件知识库。在城镇管理中,采用事理图谱技术分析居民投诉案件,能够快速获取关键事实,理清事件经过、为进一步调查和解决问题提供线索,帮助城镇管理部门甄别投诉案件的性质和原因,迅速地响应和解决投诉问题。本文针对城镇管理中的居民投诉建立案件智能分析的解决方案,包括事件定义与抽取、相似案件的定义识别、事件关系抽取和数据采集与分析平台等。通过对某镇实际案件投诉情况的分析,本文归纳了七种案件类型,定义了每种案件类型对应的事件要素,建立了投诉案件的事件分析数据集。在此基础上,提出了面向该领域的事件联合抽取模型,实现了句子级的端到端事件抽取;通过余弦相似度和BP神经网络,实现了城镇相似案件的识别,并通过模式匹配的方法实现事件关系抽取;设计并实现了面向城镇管理的投诉数据采集与分析应用。具体内容如下:(1)定义了居民投诉案件事件,提出了一个基于句子层面的端到端模型,用于从文本中提取案件的事件类型以及事件要素。由于在实际应用中,历史数据集规模较小,引入自训练的方法,从少量的标注数据中学习更多的知识,提高了模型在小样本数据集上的有效性。实验结果表明,所提出的模型在少量标注数据的情况下能够有效地从文本中提取与居民投诉案件相关的信息,F1值最高为87.35%。(2)定义了城镇居民相似案件的标准,并提出了一种评判相似案件方法,通过余弦相似度公式,实现了不同事件类型下的案件事件要素相似度计算,进而使用BP神经网络判断相似案件。城镇投诉事件间的关系主要为因果和顺承两类。采用基于模式匹配的方法,设计了事件关系的抽取模板,实现了关联案件的分析。(3)面向城镇管理,设计并实现了投诉案件采集与分析模块,已在实际系统中上线使用。主要功能包括数据采集和投诉案件分析。数据采集负责收集居民真实投诉数据,投诉案件功能基于事理图谱技术、案件相似度等分析结果利用地图sdk技术进行可视化展示。
文档级金融新闻事件抽取框架的研究与实现
这是一篇关于事件抽取,众包,数据标注,新闻文本的论文, 主要内容为事件抽取框架是构建一些特定领域知识图谱的关键必备内容,尤其是金融、医疗等新兴领域,这些领域对知识的需求量大、数据的时效性要求较高。事件抽取框架的目的是将发生的事件信息从文本中提取出来,形成包含事件信息的知识,为之后的知识图谱应用提供支持。传统的事件抽取框架中除了事件抽取方法,还会包含数据收集和数据标注部分,这些附加模块往往通过一些规则性方法来生成事件信息的标注。本文以众包的方式,使用人工标注平台,为后续的事件抽取任务提供了准确度更高的数据,提升了训练模型的准确度。本文主要工作内容如下:1.为新闻文本的事件抽取难点提供解决方案。本文针对新闻文本与公告文本的不同举例进行了对比,分析新闻文本存在的特点,并针对其特点给出相应的解决方案。在此基础上根据事件抽取任务需求,对比选择出最适合该任务的深度学习模型,再使用新闻数据集测试该模型是否适用于处理新闻文本数据。2.构建了事件信息众包(crowd-sourcing)标注平台。该标注平台以人工标注的形式生成标注数据,同时为了解决人工标注的误差问题,本论文采用了众包中的质量控制方法以获取准确度更高的标注结果,为实现质量控制方法采取了一系列的措施,最后通过众包结果的聚合算法完成真实标签的选择。输出的数据*事件抽取模块监督学习的训练数据。3.实现了完整的事件抽取框架。框架的整个流程从数据收集开始,数据收集模块采用scrapy爬虫框架实现爬取脚本,以此获得互联网上的非结构化文本数据。使用Java和freemarker作为标注平台的前后端语言,结合Springboot框架进行众包标注平台的开发。最后选择了深度学习模型作为事件抽取方法。在框架的实现阶段使用标注平台生成的新闻文本数据进行训练,使用训练过程得到的模型文件进行事件的预测,至此实现完整的事件抽取流程。
面向旅游领域的事理图谱构建关键技术研究
这是一篇关于事理图谱,事件抽取,时序关系抽取,知识图谱,智慧旅游的论文, 主要内容为据统计,2021年度国内旅游人数达到32.46亿人次,总消费达到2.92万亿元。如此大规模的旅游消费需求对现有的互联网平台来说是个巨大的挑战,如何能够动态化,个性化,智能化地为游客提供服务是其必不可忽视的需求。传统的旅游推荐系统大多只考虑旅游领域中的静态知识,然而游客在空间上的转移,和游客所参与的旅游事件都未曾考虑进来。事理图谱作为新一代认知人工智能不可或缺的重要基础设施,其以事件为节点更能描述世界的本质,为提升线上旅游服务的动态化,个性化,智能化提供了解决方案。本文根据旅游垂直领域的工业需求,针对事理图谱构建的关键技术展开研究,提出了一个自动化构建旅游垂直领域事理图谱的实现方案。该系统以基于国内旅游网站的非结构化文本数据的事件抽取框架,事件时序关系抽取框架,知识表示与存储等模块组成。本文的主要贡献和创新点如下:提出了基于机器阅读理解的事件抽取算法。该事件抽取算法将事件抽取任务建模成多轮问答的形式,相较于传统的序列标注算法而言,该方案能够融入标签的语义信息,让模型拥有足够的先验知识,从而更好的识别和抽取事件。该事件抽取算法在英文公开数据集ACE2005和中文数据集DuEE上的实验结果远超基线模型。提出了旅游垂直领域信息抽取框架,该抽取框架首先明确了旅游垂直领域的事件类型,然后基于这些事件类型构建了旅游垂直领域事件抽取和旅游事件时序关系抽取数据集。并且进一步针对该数据集设计基于attention机制的事件检测方案,该方案能够自动识别文本当中的事件触发词。最后提出兼顾效率和性能的旅游事件时序关系抽取方案,该方案在仅包含少量事件的文本中仍能保证关系抽取的高召回率和准确率。构建了一个针对游记数据的旅游垂直领域事理图谱TravelEG。探索知识图谱与事理图谱的融合,兼顾动态信息的同时考虑静态知识,能够更全面的描述游客的旅程。该图谱共包含约2.9w+事件节点,8w+条关系,可以为业界旅游智能推荐等需求提供专业的知识引擎。
基于短文本信息的事故灾难事件抽取研究
这是一篇关于事故灾难事件,事件抽取,语义特征增强的论文, 主要内容为事故灾难事件是公共突发事件的重点之一,对公共安全风险识别和应急处理均有重要影响。网络和自媒体的普及使得我们有可能在各类网络短文本中获得公共突发事件相关的有价值的信息。事件抽取在事故灾难事件信息挖掘和提取方面有着极其重要的作用,例如及时获取事态信息、建立结构化案例库等。由于文本数据特征决定了事件抽取方法的效果上限,将字粒度语义特征提升到词粒度或实体粒度可以使模型获取更高维、更丰富的语义信息。基于此,本文针对事故灾难事件相关网络短文本信息,从文本语义特征增强的角度对事件抽取任务展开了深入研究,研究内容包括以下两个方面:(1)基于命名实体识别任务反馈增强的事件抽取方法研究。为了使模型能够学习到数据中更高维度的语义特征,本文对事件抽取领域经典模型Bi LSTMCRF进行了改进,提出了一种基于命名实体识别任务反馈增强的事件抽取方法FB-Latiice-Bi LSTM-CRF。第一步,将Lattice机制融合双向长短期记忆网络Bi LSTM作为模型的共享层,获取句子中的词语语义特征;第二步,增加命名实体识别辅助任务联合学习和挖掘实体语义信息,同时将命名实体识别任务的输出反馈到输入端,提取其中实体对应的分词结果作为Lattice机制的外输入,以减少该机制自组词数量大的负荷,并进一步强化实体语义特征的提取。最后,用最大高斯似然估计方法最大化同方差不确定性,计算模型总损失,解决多任务联合学习产生的损失不平衡问题。实验结果表明,基于命名实体识别任务反馈增强的改进方法有效的提升了事件抽取效果。(2)基于知识图谱的文本预处理方法研究。通过改造模型结构可以增强模型对文本高维语义特征的学习能力,同时引发了结构要求高,泛化性较差的问题。为此,本文基于知识图谱技术,提出了一种能够增加文本语料的显式语义特征的文本预处理方法,易被模型学习。第一步,对事故灾难事件相关语料进行实体类型定义和实体提取,通过实体关系扩展使实体间建立了联系,并借助Neo4j图数据库构建目标事件“事故灾难”知识图谱;第二步,基于已建立的知识图谱,用滑动窗口扫描方法和实体链接技术对文本语料进行实体识别和分词;最后通过文本语料字粒度与实体及其属性的嵌入,融合得到包含实体属性和实体分词语义信息的文本嵌入结果。实验结果表明,该方法可广泛适用于各类事件抽取模型中,并明显提升模型效果。
面向热点话题的因果事理图谱构建及应用研究
这是一篇关于事理图谱,事件抽取,事件关系抽取,事件存储的论文, 主要内容为随着互联网的高速发展及移动设备的普及,人们获取热点话题的途径越来越多,每隔一段时间都会发生当下讨论度最高的话题。各个平台的报道消息使得人们检索话题中关键信息的时间增加,对于一起事件的前因后果及防护措施没有一个直观的表达。话题事件是实时的动态数据,会随着时间、地点、人物等因素下会触发不同的事件结果,研究事件间的因果逻辑是自然文本处理的一项难题。近些年知识图谱技术得到了广泛的研究,但着重解决的是静态数据问题。对于动态数据的研究提出了事理图谱概念,它是一种事理逻辑知识库,描述事件间的演化规律。针对以上问题,本文面向热点话题构建因果事理图谱,利用事件抽取技术抽取出事件的元素,利用事件关系抽取技术获得事件间的逻辑关系,在此基础上实现话题查询与智能问答功能,主要完成工作如下:提出了热点话题的事理图谱构建框架,首先数据源的获取采用Scrapy爬虫框架,以时间降序排序。基于热点话题标题采用Kmeans无监督算法将数据源分为几类话题。定义事件的元素由事件参与者、事件触发词、事件发生地点、事件发生时间、事件发生程度组成。其次采用序列标注方法,将事件抽取研究转化为序列标注任务,实现从热点话题事件中抽取事件元素。实验对比三种不同序列标注模型,发现基于BERT+Bi-LSTM+Attention+CRF模型的性能最好,在测试集上F1的值达到了91%。接着事件关系抽取研究,本文分别从基于依存句法分析显式因果关系抽取,基于事件句及事件对的隐式关系抽取做出研究,最终采用结合事件间规则特征和Bi-GRU的抽取模型,在测试集上F1的值达到了86%。然后基于事件抽取元素组成的事件对利用语义相似度计算得到分数最高的两对事件及事件关系抽取的4876条因果关系事件对,构造出<原因事件,因果,结果事件>、<事件i,相似,事件j>三元组,接下来将事件作为实体、事件与事件的因果、相似关系连接为关联关系存储在Neo4j图数据库中,实现事理逻辑知识库的搭建,构建出面向热点话题的因果事理图谱。最后,基于构建好的热点话题因果事理图谱设计开发了事理图谱应用系统,实现了话题查询和智能问答等功能。本文在构建事理图谱关键技术中,在事件抽取技术采用多种神经网络结合研究提高了事件元素抽取的准确率,在事件关系抽取提出事件对的概念,结合事件间的规则特征与双向长短时记忆模型抽取的因果事件对准确率更高,同时采用Neo4j图数据库克服传统数据库深度查询不足的缺点。基于此方法构建的因果事理图谱,节省了整合资源及构建时间,提高用户获取关键信息的速度,满足人们对实时热点话题理解与防护措施等需求有重要意义。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码工坊 ,原文地址:https://m.bishedaima.com/lunwen/46511.html