自媒体文本自动文摘算法改进与设计
这是一篇关于自动摘要,主题模型,自媒体文本,相似度计算,词句协同排序的论文, 主要内容为内容创业千帆竞发,自媒体平台春潮涌动。微信、微博、头条号、百家号等自媒体平台的受众范围已经远远超过传统媒体。生存在流量化中的自媒体,在给人们带来便利的同时也产生了海量的文本信息,自媒体文本中广告、电商、服务等因素也给用户获取信息增加了难度。如何帮助用户快速选择和甄别自媒体文本,高效率、高质量获得自己所需信息,把握同主题下自媒体动向已是迫切需要解决的问题。文本摘要是文章内容的真实反应,简洁且完整。自媒体文本自动文摘,在关注文本统计特征的基础上,着重挖掘文本潜在的主题信息,能够帮助用户选择、甄别同主题下自媒体文本,同时自动生成简短的文本摘要,极大提高用户阅读效率。本文主要研究工作如下:(1)利用主题爬虫技术聚焦用户搜索主题下的自媒体文本,构建自媒体文本语料库,以主题块的方式采集文本,能够极大提高文本覆盖率和页面利用率。(2)为满足面向主题的需求,同时解决自媒体文本相似度计算效率低的问题,本文提出基于LDA改进的文本相似度计算方法—LDA-C,该方法通过LDA挖掘文本潜在主题层,将字、词、句、文档作为相关主题的向量表示,构建主题空间,主题向量的余弦相似度即为文本相似度。通过实验证明,该方法在自媒体文本相似性准确度计算上比LD、TF-IDF、PLSA方法更高,并且能够降低计算复杂度,提高计算效率,同时消除未登录词的影响,避免外部词典的使用。(3)基于图排序思想,针对同主题下的自媒体文本特征,提出LDA-WSCoRank+自动文摘算法,该方法对CoRank算法进行以下改进:词句协同打分,避免以句子为粒度进行句子排序时对于特征词权重的忽略:句间重构,采用主题向量余弦相似度表示边权重,并设定边关系阈值来约束节点间的边个数,降低计算复杂度:冗余控制,通过MMR算法,克服图排序的冗余缺陷,提高文摘覆盖率;输出优化,按照原文语序,重组摘要句,保持文摘连贯性和可读性。最后以微信文本作为测试语料集对改进算法验证,通过对比TeamBest、TextRank、CoRank 算法,LDA-WSCoRank+在 ROUGE-1、ROUGE-2 和 ROUGESU上评分较高,说明该算法在文摘的完整度和连贯性表现优秀。(4)在本文研究工作的基础上,设计实现自媒体文本自动文摘系统,给出系统详细设计与实现流程,经用户实验证明,该系统能够极大提高用户选择、甄别文章的效率和准确率,提高用户阅读收益。
自媒体文本自动文摘算法改进与设计
这是一篇关于自动摘要,主题模型,自媒体文本,相似度计算,词句协同排序的论文, 主要内容为内容创业千帆竞发,自媒体平台春潮涌动。微信、微博、头条号、百家号等自媒体平台的受众范围已经远远超过传统媒体。生存在流量化中的自媒体,在给人们带来便利的同时也产生了海量的文本信息,自媒体文本中广告、电商、服务等因素也给用户获取信息增加了难度。如何帮助用户快速选择和甄别自媒体文本,高效率、高质量获得自己所需信息,把握同主题下自媒体动向已是迫切需要解决的问题。文本摘要是文章内容的真实反应,简洁且完整。自媒体文本自动文摘,在关注文本统计特征的基础上,着重挖掘文本潜在的主题信息,能够帮助用户选择、甄别同主题下自媒体文本,同时自动生成简短的文本摘要,极大提高用户阅读效率。本文主要研究工作如下:(1)利用主题爬虫技术聚焦用户搜索主题下的自媒体文本,构建自媒体文本语料库,以主题块的方式采集文本,能够极大提高文本覆盖率和页面利用率。(2)为满足面向主题的需求,同时解决自媒体文本相似度计算效率低的问题,本文提出基于LDA改进的文本相似度计算方法—LDA-C,该方法通过LDA挖掘文本潜在主题层,将字、词、句、文档作为相关主题的向量表示,构建主题空间,主题向量的余弦相似度即为文本相似度。通过实验证明,该方法在自媒体文本相似性准确度计算上比LD、TF-IDF、PLSA方法更高,并且能够降低计算复杂度,提高计算效率,同时消除未登录词的影响,避免外部词典的使用。(3)基于图排序思想,针对同主题下的自媒体文本特征,提出LDA-WSCoRank+自动文摘算法,该方法对CoRank算法进行以下改进:词句协同打分,避免以句子为粒度进行句子排序时对于特征词权重的忽略:句间重构,采用主题向量余弦相似度表示边权重,并设定边关系阈值来约束节点间的边个数,降低计算复杂度:冗余控制,通过MMR算法,克服图排序的冗余缺陷,提高文摘覆盖率;输出优化,按照原文语序,重组摘要句,保持文摘连贯性和可读性。最后以微信文本作为测试语料集对改进算法验证,通过对比TeamBest、TextRank、CoRank 算法,LDA-WSCoRank+在 ROUGE-1、ROUGE-2 和 ROUGESU上评分较高,说明该算法在文摘的完整度和连贯性表现优秀。(4)在本文研究工作的基础上,设计实现自媒体文本自动文摘系统,给出系统详细设计与实现流程,经用户实验证明,该系统能够极大提高用户选择、甄别文章的效率和准确率,提高用户阅读收益。
基于深度学习的中文自动摘要生成技术研究
这是一篇关于自动摘要,Seq2Seq,GPT,词性特征的论文, 主要内容为通过计算机从中文文本中提炼摘要,可以帮助人们从海量数据中快速获取关键信息,提高阅读效率。目前,基于Seq2Seq模型的生成式摘要技术是中文信息处理的研究热点。本文基于LSTM构建了融合词性特征和注意力机制的Seq2Seq生成式摘要模型,同时,提出基于GPT预训练模型的中文摘要生成方法,改善摘要生成质量。在2017NLPCC会议公开的自动摘要任务数据集上进行验证分析,采用ROUGE评测摘要生成质量。本文主要工作如下:(1)设计实现了融合词性特征与注意力机制的BERT-Bi LSTM-LSTM中文自动摘要模型。基于循环神经网络(RNN)构建的Seq2Seq模型存在以下问题:1)RNN存在近距离梯度主导问题,导致对远距离文本记忆效果差;2)编码器输出维度固定的上下文向量,导致中间语义向量存储原文信息量有限;3)模型没有考虑到词性因素对生成摘要词汇的影响。针对以上问题,本文构建了融合词性特征和注意力机制的序列到序列模型,该模型运用BERT中文预训练模型构建词嵌入,编码器使用双层Bi-LSTM结构,解码器采用单向四层LSTM架构。通过实验证明,本文提出的融合模型改善了生成摘要质量,相比基线模型,本模型在F1值上提高了3.38。(2)提出了一种基于GPT预训练模型的中文摘要生成方法。循环神经网络是一种链式结构网络,无法并行计算。本文引入基于Transformer的GPT预训练模型,研究发现,GPT预训练模型具有泛性,模型微调对数据量以及算力设备要求低;但模型采用BPE编码,生成摘要中存在停用词和标点符号,导致摘要评估不合理。为此,本文构建融合词性特征的GPT微调模型,首先调整编码粒度到词级,其次,在输入中融合词性特征,最后对模型进行微调。通过对比实验,该模型比基线模型在F1值上提高了2.66。(3)将构建模型作为后台模型支撑,构建基于B/S架构的中文自动摘要系统,为用户提供界面体验中文摘要自动生成,同时,收集用户提交数据,为后期模型优化储备数据资源。
基于深度学习的中文自动摘要生成技术研究
这是一篇关于自动摘要,Seq2Seq,GPT,词性特征的论文, 主要内容为通过计算机从中文文本中提炼摘要,可以帮助人们从海量数据中快速获取关键信息,提高阅读效率。目前,基于Seq2Seq模型的生成式摘要技术是中文信息处理的研究热点。本文基于LSTM构建了融合词性特征和注意力机制的Seq2Seq生成式摘要模型,同时,提出基于GPT预训练模型的中文摘要生成方法,改善摘要生成质量。在2017NLPCC会议公开的自动摘要任务数据集上进行验证分析,采用ROUGE评测摘要生成质量。本文主要工作如下:(1)设计实现了融合词性特征与注意力机制的BERT-Bi LSTM-LSTM中文自动摘要模型。基于循环神经网络(RNN)构建的Seq2Seq模型存在以下问题:1)RNN存在近距离梯度主导问题,导致对远距离文本记忆效果差;2)编码器输出维度固定的上下文向量,导致中间语义向量存储原文信息量有限;3)模型没有考虑到词性因素对生成摘要词汇的影响。针对以上问题,本文构建了融合词性特征和注意力机制的序列到序列模型,该模型运用BERT中文预训练模型构建词嵌入,编码器使用双层Bi-LSTM结构,解码器采用单向四层LSTM架构。通过实验证明,本文提出的融合模型改善了生成摘要质量,相比基线模型,本模型在F1值上提高了3.38。(2)提出了一种基于GPT预训练模型的中文摘要生成方法。循环神经网络是一种链式结构网络,无法并行计算。本文引入基于Transformer的GPT预训练模型,研究发现,GPT预训练模型具有泛性,模型微调对数据量以及算力设备要求低;但模型采用BPE编码,生成摘要中存在停用词和标点符号,导致摘要评估不合理。为此,本文构建融合词性特征的GPT微调模型,首先调整编码粒度到词级,其次,在输入中融合词性特征,最后对模型进行微调。通过对比实验,该模型比基线模型在F1值上提高了2.66。(3)将构建模型作为后台模型支撑,构建基于B/S架构的中文自动摘要系统,为用户提供界面体验中文摘要自动生成,同时,收集用户提交数据,为后期模型优化储备数据资源。
面向主题的自动摘要
这是一篇关于自动摘要,意图融合,主题识别,LDA主题模型,决策算法,NBI算法的论文, 主要内容为互联网上信息过载给人们获取需求信息带来困难,摘要的出现使得人们能够快速准确地了解文档的主要内容,而人工摘要成本较高,并且具有很强的主观性,难以解决信息过载给人们带来的检索困难问题,文本自动摘要技术应运而生。目前的自动摘要系统仅生成一个与查询相关的摘要,目的是尽可能满足所有用户的总体信息需求,但不能充分满足每个用户的个性化信息需求,针对这个问题,本文提出了面向查询的多维度主题自动摘要方法,通过建立LDA主题模型,先对用户查询进行意图识别得到多个查询主题项,再根据不同主题项生成多个不同主题摘要,以满足各个用户对同一个查询的差异化检索需求。本文的主要工作如下:(1)提出对查询进行意图融合和主题识别的方法。传统的面向查询的多文档自动摘要任务只针对一个用户查询,而一个查询通常只包含少量的关键词信息,仅根据关键词信息得到的摘要,往往很难满足用户对查询的真正需求信息。本文通过对用户查询进行查扩展和主题表示,将一个查询分解成多个与查询相关主题项,一方面对查询粒度进行了细化,丰富了检索空间,另一方面能够尽可能涵盖用户的真正信息需求,充分满足用户的检索目标。(2)在面向查询的自动摘要方面,针对户查询识别出的多个主题项提出多维度主题摘要,针对句子权重度量方式提出句子权重决策算法,针对摘要句提取运用推荐系统中的NBI算法。传统面向查询的多文档自动摘要的主要任务是生成一个与查询相关的摘要,而本文生成的摘要有多个,对查询识别出的每一个主题项生成一个相应的摘要。在句子权重计算方法方面,融合多种句子权重度量方式,并引入文档与主题项相似度和句子与主题覆盖度两个相似度度量,提出句子权重决策算法。在摘要句提取上,利用NBI算法将查询识别出的各个主题项看作一个类别,将文档集中的每一个句子看作是另外一个类别,主题摘要句的选择的过程看作是向不同的主题项推荐句子,一个句子可以推荐到不同的主题中。(3)在Mac OS环境中用Python语言实现面向查询的多维度主题自动摘要系统。用维基百科中文全文档作为训练数据集,搜狗实验室中的搜索引擎查询日志和日常检索数据作为测试数据集,实验表明,与当前面向查询的自动摘要技术相比,本文提出的多维度主题自动摘要方法更加能够满足不同用户的差异化信息检索需求。
基于RoBERTa-Seq2Seq模型与改进MMR算法的中文文本摘要自动生成方法
这是一篇关于自动摘要,BERT,Seq2Seq,最大边界相关度算法,抽取式文本摘要,生成式文本摘要的论文, 主要内容为文本摘要技术是使用计算机经过各类方法对文档或者文档集中最能代表其核心思想内容的抽取和总结,从本质上来说,是一种信息压缩技术。随着信息技术的高速发展,互联网上每天都会生成大量新闻、媒体、邮件等各类形式的文本数据,文本信息过载问题严重,而文本摘要技术可以让用户在有限的时间和精力下,更加高效地获取到有用和感兴趣的信息。现有的文本摘要方法主要采用的是抽取式或者生成式,抽取式摘要容易产生冗余信息,而生成式摘要存在信息覆盖不全面、语句不通畅问题。对于文本长度超过200个字符的文章,生成式文本摘要技术有待改进。针对短文本摘要信息冗余问题,本论文采用BERT(Bidirectional Encoder Representation from Transformers,BERT)与 RoBERTa-Seq2Seq 模型来减少冗余的方式得到最终摘要;针对中长文本,本论文将文档的语言学信息与传统的MMR算法(Maximal Marginal Relevance,最大边界相关度算法)相结合来获取长文本的摘要。论文具体工作如下:(1)基于BERT与RoBERTa-Seq2Seq模型的短文本自动摘要方法针对短文本信息冗余问题,基于BERT与RoBERTa-Seq2Seq模型设计了一种文本自动摘要方法。该方法首先通过BERT预训练模型获取词向量,再通过余弦相似度计算,选择出可以作为文本摘要的句子,最后将被选择的句子经过RoBERTa-Seq2Seq模型微调,去除一些重复文字,得到文本摘要。将该方法在LCSTS(ALarge Scale Chinese Short Text Summarization Dataset,LCSTS)数据集上进行实验,与 LDA 结合D2V方法相比,其获得的摘要准确率在ROUGE-1和ROUGE-L上面分别提升了 6%和13.71%,有效减少了生成摘要中的冗余信息,验证了该方法的有效性。(2)基于改进最大边界相关度算法的长文本摘要方法针对长文本,设计了基于改进最大边界相关度算法的长文本摘要方法。该方法将最大边界相关度算法与文本语义特征相结合。首先通过语义特征判断句子所在段落位置进行评分,再计算句子和其所在段落、句子与其所在文本的相似度得分以及句子中关键词和段落中关键词、文本中的关键词统计比较得分,然后在求得最大边界相关度算法计算的句子得分,将所有得分累计,得到一个综合得分。比较所有句子的综合得分,选择得分最高的当作本段的摘要。按照段落出现的顺序组合所有段的摘要,最后得到整个文本的摘要。随机抽取100篇长文本思政案例,由专家编写每篇案例的标准,将该方法与其他算法的摘要结果在ROUGE评分系统中对比。本文改进算法比基于传统最大边界相关度的抽取式摘要在ROUGE-1,ROUGE-2,ROUGE-L上分别高出0.93%、1.21%、2.67%,得到的摘要与专家摘要更加接近,从而验证了该算法的有效性。(3)文本摘要系统的实现采用Django和Vue技术,以本文提出的两种文本摘要算法为核心,实现了中文自动摘要系统。本文文本摘要系统主要功能包括:原文本的输入、文本预览、摘要生成、摘要保存。用户通过访问网页的方式进入系统,将原文档输入系统后,即可获取算法生成的摘要。
自媒体文本自动文摘算法改进与设计
这是一篇关于自动摘要,主题模型,自媒体文本,相似度计算,词句协同排序的论文, 主要内容为内容创业千帆竞发,自媒体平台春潮涌动。微信、微博、头条号、百家号等自媒体平台的受众范围已经远远超过传统媒体。生存在流量化中的自媒体,在给人们带来便利的同时也产生了海量的文本信息,自媒体文本中广告、电商、服务等因素也给用户获取信息增加了难度。如何帮助用户快速选择和甄别自媒体文本,高效率、高质量获得自己所需信息,把握同主题下自媒体动向已是迫切需要解决的问题。文本摘要是文章内容的真实反应,简洁且完整。自媒体文本自动文摘,在关注文本统计特征的基础上,着重挖掘文本潜在的主题信息,能够帮助用户选择、甄别同主题下自媒体文本,同时自动生成简短的文本摘要,极大提高用户阅读效率。本文主要研究工作如下:(1)利用主题爬虫技术聚焦用户搜索主题下的自媒体文本,构建自媒体文本语料库,以主题块的方式采集文本,能够极大提高文本覆盖率和页面利用率。(2)为满足面向主题的需求,同时解决自媒体文本相似度计算效率低的问题,本文提出基于LDA改进的文本相似度计算方法—LDA-C,该方法通过LDA挖掘文本潜在主题层,将字、词、句、文档作为相关主题的向量表示,构建主题空间,主题向量的余弦相似度即为文本相似度。通过实验证明,该方法在自媒体文本相似性准确度计算上比LD、TF-IDF、PLSA方法更高,并且能够降低计算复杂度,提高计算效率,同时消除未登录词的影响,避免外部词典的使用。(3)基于图排序思想,针对同主题下的自媒体文本特征,提出LDA-WSCoRank+自动文摘算法,该方法对CoRank算法进行以下改进:词句协同打分,避免以句子为粒度进行句子排序时对于特征词权重的忽略:句间重构,采用主题向量余弦相似度表示边权重,并设定边关系阈值来约束节点间的边个数,降低计算复杂度:冗余控制,通过MMR算法,克服图排序的冗余缺陷,提高文摘覆盖率;输出优化,按照原文语序,重组摘要句,保持文摘连贯性和可读性。最后以微信文本作为测试语料集对改进算法验证,通过对比TeamBest、TextRank、CoRank 算法,LDA-WSCoRank+在 ROUGE-1、ROUGE-2 和 ROUGESU上评分较高,说明该算法在文摘的完整度和连贯性表现优秀。(4)在本文研究工作的基础上,设计实现自媒体文本自动文摘系统,给出系统详细设计与实现流程,经用户实验证明,该系统能够极大提高用户选择、甄别文章的效率和准确率,提高用户阅读收益。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设港湾 ,原文地址:https://m.bishedaima.com/lunwen/52664.html