基于生成对抗网络的自动文本摘要研究
这是一篇关于自动文本摘要,生成对抗网络,关系提取,词嵌入空间约束,信息量比例约束的论文, 主要内容为随着互联网和社交媒体的发展,网络上的文本信息呈现爆炸式增长,给人们查阅和检索信息带来了不便。自动文本摘要技术的出现和发展,帮助人们有效地提炼出关键信息,大大缓解了文本信息过载的问题。生成对抗网络则通过其特有的结构融合了蒙特卡洛方法和强化学习等,在文本生成领域取得了有价值的成果。目前,基于生成对抗网络的自动文本摘要模型仍然存在一些问题:模型收敛速度慢,训练开销大以及模型训练的过程中容易发生模型坍塌。本文在现有理论的基础上,针对以上问题提出了解决方法,完成了以下工作:在生成对抗网络的基础上额外的增加了一个教师模块,该模块的主要结构为一个成熟的关系提取模型和注意力权重计算模块。该模块的输入为参考摘要,首先通过关系提取,可以得到参考摘要整个句子的核心单词,继而围绕这些核心单词,计算源文本中所有单词的注意力权重,最后将权重信息传递给生成器。在教师模块的影响下,生成器会倾向于生成与核心单词关系更加密切的单词。这一模块改变了生成器的原始输入,弥补了生成器前期生成能力较弱的缺点。避免了因判别器过于强大导致的模型不均衡,加速了生成器的收敛时间。提出将嵌入空间约束和信息量比例约束用于摘要生成,在不使用标注数据的情况下,极大地提高了模型生成摘要的质量。嵌入空间约束衡量了序列分布之间的整体距离,使得生成的摘要不会偏离源文本的主题。信息比约束对于限制摘要的序列长度,减少句子的冗余度有重要意义。结合上述两个约束,构建了一个结合两个约束的双判别器结构的生成对抗网络。实验分为两部分,一部分使用了无监督抽取式模型抽取源文本的句子替代参考摘要作为模型的输入,另一部分使用了完整的数据集做了有监督的实验。整个模型结合知识图谱和图注意力网络的相关知识对数据进行了预处理:使用关系提取的三元组作为辅助,通过图注意力计算每个单词对句子的重要性,根据单词的重要性生成一个新的词汇表,代替源文本作为模型的输入。综合以上步骤,得到最终的摘要。结果相对于对照模型在ROUGE-1,ROUGE-2,ROUGE-L上分别提高了1.96、1.94、2.35个百分点。
基于ALBERT组合模型的化工文献集关键信息获取系统
这是一篇关于文献信息获取,自动文本摘要,Seq2Seq,ALBERT,Attention的论文, 主要内容为随着化学科学和化工技术的迅速发展,化工文献的数量也实现了突飞猛进的增长,阅读如此庞大的文献资料需要耗费大量时间和精力,因此如何更高效地获取有价值的化工文献信息已成为读者关注的焦点。提高阅读效率和节约时间已成为处理化工文献资料时的关键问题。为了解决以上问题,将自然语言处理与化工文献关键信息提取任务相结合,文章提出了一种基于ALBERT预训练模型的序列到序列的文本摘要模型,旨在提高获取化工文献信息的效率并节约阅读文献花费的时间。主要的研究包括以下几个部分:1、提供了一种在ALBERT预训练模型的基础上引入Attention机制的方法用于优化输入文本的词向量特征。化工文献中含有较多的化学式和化合物英文指代,文章使用化学实体识别技术来获取化工文献中的化学式和英文指代,利用Attention机制计算出它们相应的注意力词向量特征,并将该特征与ALBERT模型生成的词向量特征进行加权,进一步优化词向量,提高化学式和英文指代对应的向量维度,使得经过ALBERT模型编码获得的向量更能代表化工领域的文献。实验结果表明该方法取得了不错的效果。2、提出了一种ALBERT、Seq2Seq和Attention的组合模型用于获取化工文献关键信息。使用ALBERT预训练模型对预处理后的文本进行编码,可以学习到输入文本的语义特征。由于文献中对应的文本长度是可变的,本模型集成了Seq2Seq模型,Seq2Seq模型的加入使得处理可变文本得以实现。针对化工领域文献的特殊性质将关键信息获取分为三个阶段进行。第一阶段为文献预处理部分:使用Python语言解析文献,获取文献文本内容,并过滤掉停用词和标点符号等与文献内容无关的内容;第二阶段为获取与化工文献利用ALBRT预训练模型搭配多层堆叠的注意力模型,获取输入文本上下文相关的词向量特征,同时针对化工文献中的化学式和英文指代,使用化学实体识别技术来识别化学物质和化学反应等实体,并增加实体对应词向量的权重;第三阶段使用关键信息获取模型对文本中包含化学实体的句子进行深层次的语义特征识别,生成紧扣化工文献内容的精简的摘要内容。实验结果表明,文章构建的模型能够很好的提取出化工文献中的关键信息。3、基于文章提出的模型,设计并实现了化工文献关键信息获取系统。在对系统的需求进行充分分析后,对系统进行了总体设计,系统为B/S架构设计,采用标准的MVC设计模式。视图层主要包含了选择文献输入功能模块、摘要输出功能模块以及对输出内容选择模块,实现了通过界面即可对文献关键信息的了解掌握,最后介绍了系统每个模块的详细设计与功能描述。
基于语义理解的文本摘要技术研究与实现
这是一篇关于自动文本摘要,文本语义理解图,对比注意力机制,BERT语言模型的论文, 主要内容为随着社会进入信息时代,网络上巨大的信息量使得如今用户想要快速检索有效信息变得十分困难。自动文本摘要技术的出现解决了上述问题,但是传统的自动文本摘要技术受限于各种条件,导致难以生成准确率高、语句通顺并且简洁的好摘要。本文以上述问题为着手点,主要研究如何提升中文自动文本摘要的质量,具体研究内容如下:1.提出了基于语义理解的生成式文本摘要模型。传统中文文本摘要模型难以利用原始文本实体间的关联,导致生成的摘要准确率低。针对这个问题,本文利用原始中文文本构建文本语义理解图,增强了文本实体与其相关内容的关联性。同时为了使文本语义理解图有效地融入到模型中,我们改进了基于图注意力机制的文本语义理解图处理器。最后设计了融合文本和图信息的解码器,使得模型在生成摘要时融合文本编码信息与构建好的语义理解图信息,从而增强了模型生成摘要的准确性。我们在LCSTS数据集上进行对比实验,证实了模型的有效性。2.改进了基于语义理解的生成式文本摘要模型。针对模型生成摘要不够简洁的问题,我们从两个方面进行改进:一是改进了对比注意力机制,使得模型可以专注于原始文本中的重要信息,二是使用BERT作为模型的嵌入层,使模型可以有效地提取出原始文本中的特征。最后通过对比实验证实上述改进提高了生成摘要的简洁性。3.基于本文工作,设计并实现面向中文新闻领域的自动文本摘要系统。系统以本文提出的算法模型为核心,基于B/S架构,实现了前端展示层、通信层和自动摘要业务层,并且系统功能齐全、界面友好。本文经过对系统进行测试表明,该系统可以进行高质量的新闻摘要生成,满足实际应用需求。
基于ALBERT组合模型的化工文献集关键信息获取系统
这是一篇关于文献信息获取,自动文本摘要,Seq2Seq,ALBERT,Attention的论文, 主要内容为随着化学科学和化工技术的迅速发展,化工文献的数量也实现了突飞猛进的增长,阅读如此庞大的文献资料需要耗费大量时间和精力,因此如何更高效地获取有价值的化工文献信息已成为读者关注的焦点。提高阅读效率和节约时间已成为处理化工文献资料时的关键问题。为了解决以上问题,将自然语言处理与化工文献关键信息提取任务相结合,文章提出了一种基于ALBERT预训练模型的序列到序列的文本摘要模型,旨在提高获取化工文献信息的效率并节约阅读文献花费的时间。主要的研究包括以下几个部分:1、提供了一种在ALBERT预训练模型的基础上引入Attention机制的方法用于优化输入文本的词向量特征。化工文献中含有较多的化学式和化合物英文指代,文章使用化学实体识别技术来获取化工文献中的化学式和英文指代,利用Attention机制计算出它们相应的注意力词向量特征,并将该特征与ALBERT模型生成的词向量特征进行加权,进一步优化词向量,提高化学式和英文指代对应的向量维度,使得经过ALBERT模型编码获得的向量更能代表化工领域的文献。实验结果表明该方法取得了不错的效果。2、提出了一种ALBERT、Seq2Seq和Attention的组合模型用于获取化工文献关键信息。使用ALBERT预训练模型对预处理后的文本进行编码,可以学习到输入文本的语义特征。由于文献中对应的文本长度是可变的,本模型集成了Seq2Seq模型,Seq2Seq模型的加入使得处理可变文本得以实现。针对化工领域文献的特殊性质将关键信息获取分为三个阶段进行。第一阶段为文献预处理部分:使用Python语言解析文献,获取文献文本内容,并过滤掉停用词和标点符号等与文献内容无关的内容;第二阶段为获取与化工文献利用ALBRT预训练模型搭配多层堆叠的注意力模型,获取输入文本上下文相关的词向量特征,同时针对化工文献中的化学式和英文指代,使用化学实体识别技术来识别化学物质和化学反应等实体,并增加实体对应词向量的权重;第三阶段使用关键信息获取模型对文本中包含化学实体的句子进行深层次的语义特征识别,生成紧扣化工文献内容的精简的摘要内容。实验结果表明,文章构建的模型能够很好的提取出化工文献中的关键信息。3、基于文章提出的模型,设计并实现了化工文献关键信息获取系统。在对系统的需求进行充分分析后,对系统进行了总体设计,系统为B/S架构设计,采用标准的MVC设计模式。视图层主要包含了选择文献输入功能模块、摘要输出功能模块以及对输出内容选择模块,实现了通过界面即可对文献关键信息的了解掌握,最后介绍了系统每个模块的详细设计与功能描述。
基于中文长文本的自动文本摘要系统研究
这是一篇关于自动文本摘要,句子相似性计算,主题分割,词嵌入的论文, 主要内容为自动文本摘要是人工智能领域中一个非常重要的研究方向,根据摘要产生方式的不同可分为抽取式摘要和生成式摘要。生成式摘要因为与人工摘要更相近,成为了近年研究的主流。但生成式摘要在中文长文本应用中面临着严重的信息错误和信息丢失问题,本论文将从解决这一问题入手提出新的模型:SSM(Super Segmentation Module)。首先,以往自动文本摘要方法中通常使用的word2vec词嵌入模型会导致中文里一词多义类文本出现错误。本论文在句向量生成时,利用BERT代替word2vec。利用BERT的深层次网络使它生成的句向量包含更多信息,在长文本上的表现提升。其次,对于包含多个主题的长文本,生成式自动摘要模型存在主题丢失的问题,在模型上加入主题分割模块,利用改进的Jaccard算法、word2vec算法做句子相关性计算,通过主题分割文本段落,再进行生成式摘要,可有效解决主题词丢失问题。本论文使用ROUGE作为评价标准,以中文长文本作为数据集,统计机器生成的摘要和参考摘要中重合的短语个数,最终在大于5000字的长文本数据集上将ROUGE-1、ROUGE-2和ROUGE-L的1F分数分别提高了40%、60%和63%,验证了词嵌入层的改良和主题分割模块的加入,可有效提升模型在长文本自动摘要提取上的性能。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码小屋 ,原文地址:https://m.bishedaima.com/lunwen/54132.html