基于深度学习的事件抽取方法研究
这是一篇关于事件抽取,深度学习,金融领域,指针标注,对抗学习的论文, 主要内容为事件抽取是信息抽取的重要子任务,是文本信息智能化处理的基础技术,在信息检索、智能问答和知识图谱研究领域中具有广泛的应用。现阶段事件抽取方法研究除通用领域之外主要集中在司法领域、新闻领域、突发事件领域以及金融领域。随着深度学习在人工智能领域的兴起,研究者发现基于深度学习的方法在事件抽取的深层次特征提取上有机器学习方法不具备的优势。基于深度学习的事件抽取通常被转换成分类任务、标注任务和机器阅读理解任务,主流的研究方法是将事件抽取转换成标注任务。事件抽取任务本身存在元素重叠、语句歧义、特征融合不充分、错误传播误差累积等问题。金融领域数据具有信息冗杂性与语序复杂性、对事件类型要求相对专业化、事件要素识别准确率要求较高等特点。本文聚焦于金融领域,针对金融领域数据本身特性和事件抽取任务存在的基本问题进行相关模型方法研究。针对事件抽取中的语句歧义、元素重叠以及错误传播问题,本文提出一种基于指针标注的事件联合抽取模型。模型的编码层利用BERT预训练模型对金融文本语句进行编码,得到句子的语义信息后融入事件类型信息进行语义增强。并将融合后的句子信息输入到触发词解码层的自注意力层中进行特征的提取,最后通过指针标注的方法对于触发词进行解码。再将融合事件类型和触发词信息的句子信息输入到论元解码层的自注意力层中进行特征的提取,用指针标注的方式加触发词的相关信息解码事件的论元。在模型训练的过程中加入对抗训练增强鲁棒性和泛化性。针对事件特征提取不充分以及金融数据的语序复杂的问题,本文在基于指针标注的事件联合抽取模型的基础上设计一种基于PERT预训练的事件联合抽取模型。金融文本句子输入到PERT预训练模型编码层中得到句子向量,融合事件类型信息,并将融合后的句子信息分别输入到触发词解码层的自注意力层和双向长短时记忆网络层中进行句子之间词与词特征和句子上下文特征的提取,最后通过指针标注的方法对触发词进行解码,在将融合事件类型和触发词信息的句子信息分别输入到论元解码层中的自注意力层和双向长短时记忆网络层中进行句子之间词与词特征和句子上下文特征的提取,最后用指针标注的方式加触发词的相关信息解码事件的论元。本文的两个事件联合抽取模型在中文金融数据集Few FC上进行实验验证,实验结果表明本文提出的两个事件抽取模型均能有效提升事件抽取的结果,且测试结果优于其他对比实验的结果,证明了模型的有效性和优越性。
面向复杂文本场景的关系抽取方法研究
这是一篇关于知识图谱,关系抽取,句法依存解析,指针标注的论文, 主要内容为关系抽取是知识抽取的重要步骤,旨在从文本语料或多模态数据中发现实体间语义关系,从而为知识图谱构建提供知识三元组,并直接影响知识图谱的质量及应用效果。近年来,关系抽取研究取得了很大进展,但现有研究工作大多集中于句内关系及简单实体对关系,而针对文档级关系抽取及重叠关系抽取的研究目前仍然面临两方面的挑战:(1)在文档级关系抽取中,关系对应的实体对通常跨越多个句子,如何精准地统一实体信息及多个句子语义信息的特征表示仍需探索;(2)在重叠关系抽取中,多个三元组交叉重叠情况复杂,如何根据语义信息准确地识别出不同的关系三元组仍是难点。在实际的应用场景,跨句子及重叠关系情况都较常见,如何从这些复杂场景中抽取关系事实显得尤为重要。针对上述问题,本文分别对文档级关系抽取和重叠关系抽取展开探索,主要工作如下:1.提出了一种多粒度关系抽取模型MGRE:该模型充分融合了实体级、句子级和文档级等多个粒度的语义信息,能够更好地表征文档中实体及各个句子间的语义交互。首先,在实体级语义信息构建中,针对传统最短依存路径方法只是将实体对信息作为路径序列的一部分进行特征抽取,而无法区分实体间语义差别的问题,本文借鉴了TransE模型的翻译思想,对于通过最短依存路径获取的头尾实体表示,利用翻译策略进行融合,以获得实体对间的关联信息。然后,在句子级语义信息构建中,本文使用CNN网络对各个句子进行语义特征抽取。最后,对于句子级网络层获取的多个句子级特征向量,通过注意力机制将其融合为文档级语义特征,并进一步与实体级语义信息进行融合,完成了文档信息及实体对信息的有机统一。公开数据集上的实验结果表明,本文方法在文档级关系抽取任务上取得了较好的抽取性能。2.提出了一种基于指针标注的三阶段关系抽取模型TSRE:该模型主要包括关系分类、头实体标注和尾实体标注三个阶段的工作。首先,针对重叠关系抽取中三元组交叉重叠问题,关系分类阶段将文本中的三元组按照关系类别划分为多个简单的小集合,降低了后续实体识别的复杂性。然后,在头实体标注和尾实体标注阶段,采用指针标注策略,通过头尾指针抽取任意跨度的实体。模型的三个阶段层层衔接与递进,每一个阶段抽取出的三元组元素,都将会作为前置条件输入到下一阶段的网络中,充分融合实体及关系之间的交互信息,很好地提升重叠关系抽取的性能。实验结果表明,本文的方法在Du RED和ICRED两个数据集上都取得了最佳的抽取性能,在重叠关系抽取任务上的性能优于现有的其它模型。
基于深度学习的金融领域中文实体关系联合抽取算法研究
这是一篇关于金融领域,实体关系联合抽取,重叠三元组,指针标注,对抗训练,FinBERT的论文, 主要内容为在当今信息化时代,金融领域的各类金融交易和活动每天都会产生海量的信息资源。如何快速而准确地从海量的数据中获取有用的知识成为金融领域信息智能处理研究的一个难点。利用实体关系抽取方法可以自动高效地从这些非结构化的金融信息中抽取三元组,为构建金融领域知识图谱提供数据支持。实体关系抽取可以分为流水线方法和实体关系联合抽取方法。流水线方法把实体关系抽取分为两个独立的任务,因此会导致任务之间缺乏关联、错误传播以及信息冗余等问题。而实体关系联合抽取方法可以在一个统一的模型中同时处理实体和关系,克服流水线方法存在的缺点,成为主流学习方法。本文针对金融领域实体关系联合抽取技术进行深入研究,主要研究内容如下:(1)针对重叠三元组问题,本文提出融合FGM(Fast Gradient Method)和指针标注的实体关系联合抽取模型BERT-FGM。该模型以BERT(Bidirectional Encoder Representations from Transformers)模型为基础,通过使用一种新的指针标注策略将实体对上的关系建模为函数,有效地解决重叠三元组问题。此外,通过在BERT模型训练词向量的过程中融入FGM对抗训练算法提高模型的泛化性能。在公共数据集Web NLG和NYT与其他实体关系联合抽取模型进行对比实验,本文提出的BERT-FGM模型的F1值达到90.7%和88.3%,有效地解决三元组重叠问题。(2)针对中文BERT模型未对金融领域优化和以字为粒度切分的缺点,本文基于金融领域预训练模型Fin BERT(BERT for Financial Text Mining)对BERT-FGM模型优化得到Fin BERT-FGM模型。该模型使用全词MASK技术对金融领域的语料库和词汇表进行预训练,学习金融领域的先验知识,克服BERT模型在中文金融文本识别不佳的缺点。在本文构建的金融关系三元组数据集上的对比实验中,Fin BERT-FGM模型相比于BERT-FGM模型在准确率和召回率上分别提升了2.8%和3.4%。使用Python设计并开发一款基于Fin BERT-FGM模型的金融领域关系三元组抽取软件,实现识别结果的可视化及保存识别结果的功能。
基于深度学习的事件抽取方法研究
这是一篇关于事件抽取,深度学习,金融领域,指针标注,对抗学习的论文, 主要内容为事件抽取是信息抽取的重要子任务,是文本信息智能化处理的基础技术,在信息检索、智能问答和知识图谱研究领域中具有广泛的应用。现阶段事件抽取方法研究除通用领域之外主要集中在司法领域、新闻领域、突发事件领域以及金融领域。随着深度学习在人工智能领域的兴起,研究者发现基于深度学习的方法在事件抽取的深层次特征提取上有机器学习方法不具备的优势。基于深度学习的事件抽取通常被转换成分类任务、标注任务和机器阅读理解任务,主流的研究方法是将事件抽取转换成标注任务。事件抽取任务本身存在元素重叠、语句歧义、特征融合不充分、错误传播误差累积等问题。金融领域数据具有信息冗杂性与语序复杂性、对事件类型要求相对专业化、事件要素识别准确率要求较高等特点。本文聚焦于金融领域,针对金融领域数据本身特性和事件抽取任务存在的基本问题进行相关模型方法研究。针对事件抽取中的语句歧义、元素重叠以及错误传播问题,本文提出一种基于指针标注的事件联合抽取模型。模型的编码层利用BERT预训练模型对金融文本语句进行编码,得到句子的语义信息后融入事件类型信息进行语义增强。并将融合后的句子信息输入到触发词解码层的自注意力层中进行特征的提取,最后通过指针标注的方法对于触发词进行解码。再将融合事件类型和触发词信息的句子信息输入到论元解码层的自注意力层中进行特征的提取,用指针标注的方式加触发词的相关信息解码事件的论元。在模型训练的过程中加入对抗训练增强鲁棒性和泛化性。针对事件特征提取不充分以及金融数据的语序复杂的问题,本文在基于指针标注的事件联合抽取模型的基础上设计一种基于PERT预训练的事件联合抽取模型。金融文本句子输入到PERT预训练模型编码层中得到句子向量,融合事件类型信息,并将融合后的句子信息分别输入到触发词解码层的自注意力层和双向长短时记忆网络层中进行句子之间词与词特征和句子上下文特征的提取,最后通过指针标注的方法对触发词进行解码,在将融合事件类型和触发词信息的句子信息分别输入到论元解码层中的自注意力层和双向长短时记忆网络层中进行句子之间词与词特征和句子上下文特征的提取,最后用指针标注的方式加触发词的相关信息解码事件的论元。本文的两个事件联合抽取模型在中文金融数据集Few FC上进行实验验证,实验结果表明本文提出的两个事件抽取模型均能有效提升事件抽取的结果,且测试结果优于其他对比实验的结果,证明了模型的有效性和优越性。
基于深度学习的事件抽取方法研究
这是一篇关于事件抽取,深度学习,金融领域,指针标注,对抗学习的论文, 主要内容为事件抽取是信息抽取的重要子任务,是文本信息智能化处理的基础技术,在信息检索、智能问答和知识图谱研究领域中具有广泛的应用。现阶段事件抽取方法研究除通用领域之外主要集中在司法领域、新闻领域、突发事件领域以及金融领域。随着深度学习在人工智能领域的兴起,研究者发现基于深度学习的方法在事件抽取的深层次特征提取上有机器学习方法不具备的优势。基于深度学习的事件抽取通常被转换成分类任务、标注任务和机器阅读理解任务,主流的研究方法是将事件抽取转换成标注任务。事件抽取任务本身存在元素重叠、语句歧义、特征融合不充分、错误传播误差累积等问题。金融领域数据具有信息冗杂性与语序复杂性、对事件类型要求相对专业化、事件要素识别准确率要求较高等特点。本文聚焦于金融领域,针对金融领域数据本身特性和事件抽取任务存在的基本问题进行相关模型方法研究。针对事件抽取中的语句歧义、元素重叠以及错误传播问题,本文提出一种基于指针标注的事件联合抽取模型。模型的编码层利用BERT预训练模型对金融文本语句进行编码,得到句子的语义信息后融入事件类型信息进行语义增强。并将融合后的句子信息输入到触发词解码层的自注意力层中进行特征的提取,最后通过指针标注的方法对于触发词进行解码。再将融合事件类型和触发词信息的句子信息输入到论元解码层的自注意力层中进行特征的提取,用指针标注的方式加触发词的相关信息解码事件的论元。在模型训练的过程中加入对抗训练增强鲁棒性和泛化性。针对事件特征提取不充分以及金融数据的语序复杂的问题,本文在基于指针标注的事件联合抽取模型的基础上设计一种基于PERT预训练的事件联合抽取模型。金融文本句子输入到PERT预训练模型编码层中得到句子向量,融合事件类型信息,并将融合后的句子信息分别输入到触发词解码层的自注意力层和双向长短时记忆网络层中进行句子之间词与词特征和句子上下文特征的提取,最后通过指针标注的方法对触发词进行解码,在将融合事件类型和触发词信息的句子信息分别输入到论元解码层中的自注意力层和双向长短时记忆网络层中进行句子之间词与词特征和句子上下文特征的提取,最后用指针标注的方式加触发词的相关信息解码事件的论元。本文的两个事件联合抽取模型在中文金融数据集Few FC上进行实验验证,实验结果表明本文提出的两个事件抽取模型均能有效提升事件抽取的结果,且测试结果优于其他对比实验的结果,证明了模型的有效性和优越性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设小屋 ,原文地址:https://m.bishedaima.com/lunwen/56300.html