基于预训练语言模型的文本摘要生成研究
这是一篇关于生成式文本摘要,融合篇章信息,词向量重构的论文, 主要内容为当前社会,文本信息量呈指数水平增长,人们接收到的信息不仅数量巨大,还存在着表述繁复不清、语义混乱颠倒等问题,导致人们不仅需要耗费大量时间搜寻其真正所需的信息,更耗费数倍精力于辨别信息的准确性上。文本摘要技术借助机器学习和深度学习,可以将庞杂的信息快速转化为简短的摘要。但目前文本摘要技术仍存在事实性错误和摘要精度不够高的问题。本文针对这两个问题分别进行研究并提出解决方案,一是对融合篇章信息的生成式文本摘要的研究,另一个则是对基于词向量重构的文本理解增强方法的研究:(1)针对生成式文本摘要存在的事实性错误的问题,本文提出融合篇章信息的方法。在生成摘要时,本文认为该篇章内的词汇应当在生成时拥有更高的概率,因此在解码阶段通过平移缩放,调高了原文词汇的生成概率,使得摘要结果的粒度更细、精度更高,以低参数量的方式优化了生成式文本摘要事实性错误的问题。由于事实性错误问题缺乏客观的评价指标,因此为了客观评估模型效果,本文挑选了500条发生事实性错误的数据以构建测试集,通过对比本方法和其他方法的错误修正率对模型效果进行评价。最终,本文提出的方法在参数量提升3.17%的同时,事实性错误的错误修正率达到29.2%。与基于知识图谱的方法和基于BART(Bidirectional and Auto-Regressive Transformers)的纠错模型相比,本方法增加的参数量仅有它们的8%左右。在ROUGE-1,ROUGE-2与ROUGE-L的得分表现上,本文提出的方法相较基线模型T5 Pegasus分别提升了0.33、0.34与0.28。此外,本文还优化了预训练模型的词典使用方式,在保证准确率的前提下缩短了训练时间33.7%。(2)针对生成式文本摘要存在的精度不足的问题,本文提出基于词向量重构的文本理解增强方法。本文通过Transformer块结合CNN的方式将句子的语义信息显式融合到词向量中,相对于传统的注意力机制的隐式融合方式,本文提出的方法能够生成更加优质的词向量,在基线模型T5 Pegasus的基础上ROUGE-1,ROUGE-2与ROUGE-L值分别提升了0.19、0.13与0.16,提高了生成式文本摘要准确率。除此之外,本文还设计了本方法在不同长度微博文本的实验,验证了本方法在不同数据量下相较基线模型均有提升的结论。
个性化观点标签生成关键技术研究
这是一篇关于评论分析,生成式文本摘要,电商平台,个性化,观点标签的论文, 主要内容为电子商务平台的高速发展使得平台中每天都会产生数以万计的产品和服务评论,带来日益严重的信息过载问题。为了帮助用户快速了解产品信息,许多电商平台利用生成式文本摘要技术提供了产品描述、推荐语等文本形式反映产品的关键特征,但这些文本形式所包含的内容均无法兼顾提取信息的完整性和信息要点的顺序性。基于此,研究人员提出了观点标签生成任务。观点标签是一组描述产品或服务特定方面特征的有序短文本序列,能够反映产品评论的关键信息。但是,现有的观点标签生成模型只能生成反映大众化偏好的观点标签,而忽略了个性化特征,这在电商平台中是吸引用户的重要因素。针对这一问题,本文定义了个性化的观点标签生成任务,并设计了基于该任务的个性化观点标签生成模型。个性化观点标签生成任务主要基于电商平台中的各类数据,提取产品关键信息以生成观点标签词,挖掘用户偏好以确定观点标签词的顺序,从而保证产品的关键信息可以依据用户的感兴趣程度排列。在这个过程中,主要面临用户评论数据稀疏,以及从各类数据中提取的用户显式偏好和隐式偏好难以整合的问题。为了应对这些挑战,本文提出了一种个性化的观点标签生成框架,包含两个个性化信息挖掘模块和一个观点标签生成器。为了验证所提出模型的有效性,本文基于电商平台中真实的业务数据进行评估,实验结果表明,本文模型在生成指标及排序指标上均优于现存的最优模型。
基于深度神经网络的文本摘要生成技术研究
这是一篇关于生成式文本摘要,ERNIE预训练语言模型,PGN,卷积神经网络,注意力机制,强化学习的论文, 主要内容为文本摘要技术在新闻、社交媒体、金融、医学、学术文献摘要、信息检索等应用领域具有重要研究价值。但是要想生成高质量的摘要,必须具备一些复杂的理解能力,如释义、概括、知识融合等。生成式摘要存在语义信息不丰富、未登录词OOV(Out Of Vocabulary)、摘要的可读性差以及重复生成问题,针对上述问题,本文开展了如下研究:(1)提出改进型指针生成网络模型(Pointer Genrator Network,PGN)。针对PGN获取到的上下文语义向量信息不丰富、中文文本特征以及语法结构缺失等问题,采用LCSTS中文摘要数据集,在PGN网络前加入ERNIE预训练语言模型,增强对中文文本语义特征和实体短语的表示,使得模型能更准确的对中文语义有恰当的表征。实验结果表明,改进型指针生成网络有助于提升模型生成高质量摘要。(2)提出混合卷积和循环网络的摘要生成模型。由于Seq2Seq模型并未很好的解决生成摘要的可读性和重复性问题,在编码端依次使用ERNIE和多层卷积神经网络,可有效提取文本局部和整体语义特征信息,在解码端增加注意力机制,减轻对已生成的解码序列和关键原文本内容的过度关注,避免了重复生成,最后采用指针网络缓解OOV问题。实验结果表明,混合卷积和循环网络的提出可以有效缓解重复生成问题,提升模型生成摘要的可读性。(3)提出基于强化学习(Reinforcement Learning,RL)的Seq2Seq摘要生成模型。模型训练和测试使用的数据不一致,称为曝光偏差(Exposure Bias)问题,这种问题会导致模型变脆弱。采用RL改进训练方式,使得训练和测试均为解码端上一时刻的输出,同时将传统的损失函数与RL损失函数加权求和作为模型最终的损失函数。实验结果表明,RL有效缓解了曝光偏差,提高了摘要生成的事实准确度。(4)基于上述研究,从工程角度设计实现了文本摘要原型系统。系统采用B/S架构、模型-视图-控制(MVC)的开发模式以及Flask Web框架。通过测试证明该系统可以正常运行,生成的摘要内容能概括原文主要信息。
个性化观点标签生成关键技术研究
这是一篇关于评论分析,生成式文本摘要,电商平台,个性化,观点标签的论文, 主要内容为电子商务平台的高速发展使得平台中每天都会产生数以万计的产品和服务评论,带来日益严重的信息过载问题。为了帮助用户快速了解产品信息,许多电商平台利用生成式文本摘要技术提供了产品描述、推荐语等文本形式反映产品的关键特征,但这些文本形式所包含的内容均无法兼顾提取信息的完整性和信息要点的顺序性。基于此,研究人员提出了观点标签生成任务。观点标签是一组描述产品或服务特定方面特征的有序短文本序列,能够反映产品评论的关键信息。但是,现有的观点标签生成模型只能生成反映大众化偏好的观点标签,而忽略了个性化特征,这在电商平台中是吸引用户的重要因素。针对这一问题,本文定义了个性化的观点标签生成任务,并设计了基于该任务的个性化观点标签生成模型。个性化观点标签生成任务主要基于电商平台中的各类数据,提取产品关键信息以生成观点标签词,挖掘用户偏好以确定观点标签词的顺序,从而保证产品的关键信息可以依据用户的感兴趣程度排列。在这个过程中,主要面临用户评论数据稀疏,以及从各类数据中提取的用户显式偏好和隐式偏好难以整合的问题。为了应对这些挑战,本文提出了一种个性化的观点标签生成框架,包含两个个性化信息挖掘模块和一个观点标签生成器。为了验证所提出模型的有效性,本文基于电商平台中真实的业务数据进行评估,实验结果表明,本文模型在生成指标及排序指标上均优于现存的最优模型。
个性化观点标签生成关键技术研究
这是一篇关于评论分析,生成式文本摘要,电商平台,个性化,观点标签的论文, 主要内容为电子商务平台的高速发展使得平台中每天都会产生数以万计的产品和服务评论,带来日益严重的信息过载问题。为了帮助用户快速了解产品信息,许多电商平台利用生成式文本摘要技术提供了产品描述、推荐语等文本形式反映产品的关键特征,但这些文本形式所包含的内容均无法兼顾提取信息的完整性和信息要点的顺序性。基于此,研究人员提出了观点标签生成任务。观点标签是一组描述产品或服务特定方面特征的有序短文本序列,能够反映产品评论的关键信息。但是,现有的观点标签生成模型只能生成反映大众化偏好的观点标签,而忽略了个性化特征,这在电商平台中是吸引用户的重要因素。针对这一问题,本文定义了个性化的观点标签生成任务,并设计了基于该任务的个性化观点标签生成模型。个性化观点标签生成任务主要基于电商平台中的各类数据,提取产品关键信息以生成观点标签词,挖掘用户偏好以确定观点标签词的顺序,从而保证产品的关键信息可以依据用户的感兴趣程度排列。在这个过程中,主要面临用户评论数据稀疏,以及从各类数据中提取的用户显式偏好和隐式偏好难以整合的问题。为了应对这些挑战,本文提出了一种个性化的观点标签生成框架,包含两个个性化信息挖掘模块和一个观点标签生成器。为了验证所提出模型的有效性,本文基于电商平台中真实的业务数据进行评估,实验结果表明,本文模型在生成指标及排序指标上均优于现存的最优模型。
基于RoBERTa-Seq2Seq模型与改进MMR算法的中文文本摘要自动生成方法
这是一篇关于自动摘要,BERT,Seq2Seq,最大边界相关度算法,抽取式文本摘要,生成式文本摘要的论文, 主要内容为文本摘要技术是使用计算机经过各类方法对文档或者文档集中最能代表其核心思想内容的抽取和总结,从本质上来说,是一种信息压缩技术。随着信息技术的高速发展,互联网上每天都会生成大量新闻、媒体、邮件等各类形式的文本数据,文本信息过载问题严重,而文本摘要技术可以让用户在有限的时间和精力下,更加高效地获取到有用和感兴趣的信息。现有的文本摘要方法主要采用的是抽取式或者生成式,抽取式摘要容易产生冗余信息,而生成式摘要存在信息覆盖不全面、语句不通畅问题。对于文本长度超过200个字符的文章,生成式文本摘要技术有待改进。针对短文本摘要信息冗余问题,本论文采用BERT(Bidirectional Encoder Representation from Transformers,BERT)与 RoBERTa-Seq2Seq 模型来减少冗余的方式得到最终摘要;针对中长文本,本论文将文档的语言学信息与传统的MMR算法(Maximal Marginal Relevance,最大边界相关度算法)相结合来获取长文本的摘要。论文具体工作如下:(1)基于BERT与RoBERTa-Seq2Seq模型的短文本自动摘要方法针对短文本信息冗余问题,基于BERT与RoBERTa-Seq2Seq模型设计了一种文本自动摘要方法。该方法首先通过BERT预训练模型获取词向量,再通过余弦相似度计算,选择出可以作为文本摘要的句子,最后将被选择的句子经过RoBERTa-Seq2Seq模型微调,去除一些重复文字,得到文本摘要。将该方法在LCSTS(ALarge Scale Chinese Short Text Summarization Dataset,LCSTS)数据集上进行实验,与 LDA 结合D2V方法相比,其获得的摘要准确率在ROUGE-1和ROUGE-L上面分别提升了 6%和13.71%,有效减少了生成摘要中的冗余信息,验证了该方法的有效性。(2)基于改进最大边界相关度算法的长文本摘要方法针对长文本,设计了基于改进最大边界相关度算法的长文本摘要方法。该方法将最大边界相关度算法与文本语义特征相结合。首先通过语义特征判断句子所在段落位置进行评分,再计算句子和其所在段落、句子与其所在文本的相似度得分以及句子中关键词和段落中关键词、文本中的关键词统计比较得分,然后在求得最大边界相关度算法计算的句子得分,将所有得分累计,得到一个综合得分。比较所有句子的综合得分,选择得分最高的当作本段的摘要。按照段落出现的顺序组合所有段的摘要,最后得到整个文本的摘要。随机抽取100篇长文本思政案例,由专家编写每篇案例的标准,将该方法与其他算法的摘要结果在ROUGE评分系统中对比。本文改进算法比基于传统最大边界相关度的抽取式摘要在ROUGE-1,ROUGE-2,ROUGE-L上分别高出0.93%、1.21%、2.67%,得到的摘要与专家摘要更加接近,从而验证了该算法的有效性。(3)文本摘要系统的实现采用Django和Vue技术,以本文提出的两种文本摘要算法为核心,实现了中文自动摘要系统。本文文本摘要系统主要功能包括:原文本的输入、文本预览、摘要生成、摘要保存。用户通过访问网页的方式进入系统,将原文档输入系统后,即可获取算法生成的摘要。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码驿站 ,原文地址:https://m.bishedaima.com/lunwen/52665.html