6篇关于短文本的计算机毕业论文

今天分享的是关于短文本的6篇计算机毕业论文范文, 如果你的论文涉及到短文本等主题,本文能够帮助到你

基于文档-词共现图的短文本主题抽取的研究与实现

这是一篇关于公共文化,知识图谱,短文本,主题抽取,文档-词共现图的论文, 主要内容为我国图书馆、博物馆、美术馆、文化站等各类文化场所蕴藏的公共文化资源数量庞大、种类繁多,却给用户的选择带来了困难。构建公共文化知识图谱,对公共文化资源进行有效组织和管理,有利于实现公共文化资源的共建共享。根据公共文化资源的文本描述信息抽取资源主题并对公共文化知识图谱进行补全,增强文化资源语义特征,便于刻画用户的兴趣偏好,有利于实现公共文化资源个性化推荐,推动公共文化传播,助力我国迈向文化强国。然而,公共文化资源的描述信息有限、文本较短,由于数据稀疏导致传统主题抽取方法不能有效捕获短文本中单词和文本的语义,抽取出的主题准确度和质量较低。为了实现对公共文化资源短文本进行高质量的主题抽取,本硕士论文对短文本主题抽取问题开展深入研究,提出了基于文档-词共现图的短文本主题抽取方法,并应用到公共文化知识图谱系统中,从而为构建高质量的公共文化知识图谱提供支持。论文主要工作包括:(1)针对已有短文本主题模型泛化能力较差、语义表述不充分的问题,提出了基于BERT模型的文档-词共现图构建方法,以图的形式直观表示文本和主题词之间的关系,同时引入BERT词向量模型,增强共现主题词对的语义关联,从而获得文本语料的整体主题分布情况以及每篇文本所属的主题范围,提升主题词的质量。(2)针对已有短文本主题模型主题推断困难的问题,提出了基于文档-词共现图互信息最大化的主题推断方法,将互信息概念与图嵌入技术相结合,建立基于节点-子图互信息最大化的图嵌入模型,并对文档-词共现图进行训练,使得同一主题下的单词具有相近的表示,不同主题下的单词表示差异较大。最后利用训练获得的文档-词共现图的特征矩阵,从每一篇文本所属的主题域中推断出其主题词。(3)设计并实现了短文本主题抽取原型系统,详细介绍了该系统的功能架构、模块设计以及数据库设计,阐述了核心业务层的实现方法和处理流程,并展示了系统的实际运行效果,验证了本文理论研究成果的可行性与有效性。

面向微博短文本的情感分析系统的设计与实现

这是一篇关于短文本,情感分析,长短期记忆网络,注意力机制的论文, 主要内容为随着5G加速到来,信息传播速度变大,各色各样的软件伴随着海量数据涌入人们的生活,软件用户由原来被动接收下载获取信息变为现在主动创造上传扩散信息。微博因其能够快速获取信息、自由发表言论,受到越来越多人喜爱。从海量信息中提取群众观点,有助于个人用户了解情绪立场和价值观,政府把控舆情制定相关政策,商家在提高用户满意度的同时增加商业盈利。文本在调查常用的文本情感分析算法的优、缺点后,面向微博短文本的特点,进行舆情分析。实验用Word2vec预训练,把降低了数据维度的词向量输入到基于注意力机的长短期记忆网络,利用注意力机制直接在词向量学习每个词的情感信息,生成对应的词向量权重,进而词语加权求和得到句子基本情感倾向极性。论文实验部分采用北京理工搜索挖掘实验室公开数据集500万微博语料构建语料库,与SVM、LDA、LSTM、ATT+LSTM不同模型对比实验并取得较好的效果,证明了本文提出的算法在微博短文本领域的适用性。在此基础上,本文严格按照软件工程开发流程设计并开发了面向微博短文本的情感分析Web应用系统。前端采用Vue.js框架设计友好用户界面,后端采用Django框架实现业务逻辑交互,系统采集了新浪微博数据,用实验提出的算法训练模型实现了对个人情感分类和事件舆情预测等功能,即能使算法成功落地又能保证系统舆情分析的可靠性,最后对系统进行功能和非功能测试保证系统质量。

基于外部信息的短文本主题建模研究

这是一篇关于主题模型,短文本,概念信息,双概念,词特征的论文, 主要内容为主题模型作为一种文本挖掘技术,在常规文本建模上的发展已经较为成熟,被广泛应用于特征提取、主题分析、推荐系统等领域。然而随着社交媒体的发展,短文本正在不断成为互联网中文字表达的主要形式,这为主题模型的研究带来了新的挑战。现有主题模型往往基于文本本身的词共现信息进行建模,没有引入额外先验知识进行补充,同时短文本存在词共现较为稀疏的特性,该特性影响了主题建模的准确性,导致无法提取优质的主题特征。针对此问题,本文从引入外部信息到主题模型中入手,重点解决短文本主题建模文本稀疏性问题以及先验知识匮乏问题。其主要内容包括:(1)词特征二值化。根据词向量的均值将预训练好的词向量转换为数值为0或1的二值化标签,保留词向量中特征突出的部分,舍弃词向量中特征较弱的部分,获取词特征信息。(2)基于Concept Net的Bi-Concept对构建。基于Concept Net语义网络对BTM(Biterm Topic Model)构建biterm的思路进行改进,构建Bi-Concept对集合,获取概念信息并避免引入大量的噪音。(3)双概念主题模型(Bi-Concept Topic Model,BCTM)构建。BCTM结合代表词特征信息的二值化标签,计算出特定主题下词汇受到词特征信息影响的权重,使得主题-词矩阵下每个词汇生成其特有狄利克雷先验。同时基于Bi-Concept对进行采样,补足文本信息并涵盖了概念网络的知识,提升短文本主题模型准确率。就以上研究,本文将词特征信息与概念信息两种外部信息引入到主题建模过程中,补足短文本稀疏的词共现以及先验信息,并将所构建的BCTM在不同的文本单元与基准模型进行了主题建模实验对比。实验结果证明,BCTM在困惑度、主题一致性以及文本分类准确率上的表现皆优于基准模型,证明了引入外部信息到短文本主题建模的有效性。

面向电商平台用户生成内容的多源异构数据融合与表示

这是一篇关于多源异构,用户生成内容,表示学习,融合,短文本的论文, 主要内容为用户生成多源异构数据融合与表示在各个领域引起广泛关注,如电商平台中用户评论与消费行为可为企业和商家针对用户的个性化服务提供重要依据。目前,针对多源文本的融合表示相对简单,没有考虑长短文本间的差异性,表示精度有待提高;此外,在进行异构数据融合时,近年来提出的深度学习可将各结构数据映射到同一共享空间。但是,已有研究较少针对电商平台中的用户生成内容。鉴于此,本文研究面向电商平台用户生成内容的多源异构数据融合与表示策略,主要内容如下:(1)电商平台用户生成文本数据的融合表示:首先,将用户生成多源文本根据数据的长度与特点分为长短文本区分处理,提出基于Doc2vec模型与隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型融合的策略,提取短文本特征;在此基础上,提出基于皮尔逊相似度选择商品评论与描述文本融合对象的方法,确定表示商品文本特征所需最少文本数;最后,将所提算法应用于亚马逊公开数据集多类商品分类问题,仿真结果表明所提算法可有效提高多源文本融合的精度,缓解信息过载。(2)电商平台用户生成多源异构数据的融合表示:在研究内容(1)的基础上,进一步考虑含评价文本和物品图像数据的用户生成内容异构数据的融合表示。首先,利用迁移学习的思想,使用预训练的残差网络(Residual Network,Res Net)获取商品图像数据的特征表达;然后,利用研究内容(1)的研究结果结合图像数据与评价文本的特征,考虑图文互补性,提出离散卷积融合策略,完成多源异构数据的融合;最后,将所提算法应用于亚马逊公开数据的扩展数据集上,实验结果证明了所提融合算法的有效性。(3)基于用户生成多源异构数据融合表示的个性化推荐:将研究内容(1)和(2)应用于实际问题中的个性化推荐中,以进一步说明所提算法的有效性,提出了基于多源异构数据融合表示和RBM评价偏好估计的个性化推荐策略。首先依据多源异构数据特征的融合表示和商品类别属性,构建基于受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)的用户偏好估计模型;然后,进一步利用用户隐式和显式偏好联合学习协同过滤算法,完成用户的个性化推荐;最后,将所提算法应用于亚马逊多个领域的用户推荐问题,结果证明基于多源异构用户生成内容融合表示的物品描述可有效提高推荐的准确率,并为推荐结果提供更多的可解释性。该论文有图18幅,表14个,参考文献93篇。

商品评论细粒度情感分析系统设计与实现

这是一篇关于细粒度情感分析,短文本,深度学习,文本表示,BERT的论文, 主要内容为传统的文本情感分析在一些仅需情感极性判定的领域,如网络舆情分析、股评分析等,已体现出较好的应用价值。然而,随着应用的深入,用户如希望进一步获得评价对象属性所对应的具体情感分析结果,传统的情感分析则不能完全满足需求,为此,细粒度情感分析便应运而生,并得到越来越多的重视。不过,目前在细粒度情感分析的文本表示上,依然存在着许多困难和挑战。比如,商品评论属网络文本,存在文本短、重点信息多、不规范、表达方式复杂等特性,甚至可能存在未登录词,或情感词缺少对象属性等问题。此外,现有电商平台还未实现细粒度情感分析系统的实际应用,如何把算法应用到实际生活,这也是一个具有挑战性的工作。本文针对细粒度情感分析中的这些关键问题,在总结国内外细情感分析理论及其研究成果基础之上,主要研究内容包括以下五个部分:(1)通过引入词频-逆文档频度(Term Frequency-Inverse Document Frequency,TF-IDF)技术对关键词向量进行权重标注,再使用文本卷积网络(Text Convolutional Neural Networks,TextCNN)进行情感分类,从而提高细粒度情感分类的准确性。经过实验证明,相较于传统的TextCNN在细粒度情感分类的精度上有所提高,为解决关键词向量权重问题提供了很好的解决思路。(2)通过在输入时引入联合字词表示加强文本表示,在使用面向方面嵌入的门控卷积网络模型(gate convolutional network with Aspect embedded,GCAE)分类前添加一层额外的长短时间记忆模型(Bi-Long Short Term Memory,BiLSTM)改善其长句信息丢失的问题,从而提高细粒度情感分类的准确性。经过实验证明相较于经典的GCAE模型在细粒度情感分类的精度上有所提高,为改进经典模型提供了很好的解决思路。(3)针对静态词向量在文本表示上的不足,用动态分字预训练模型加强文本表示,使用预训练模型(Bidirectional Encoder Representations from Transformers,BERT)进行微调,以达到文本表达的较好效果,并使用集成学习的分类方法对两种分类器加强情感分类,从而达到较为精准的细粒度情感分析。经过实验证明,该模型对提高细粒度情感分析的精度有着最好的效果和精度。(4)针对商品评论文本的不规范性问题,本文使用基于深度学习的改进模型,使其能自动对新增词汇进行特征学习,不需要额外的人工干预。(5)本文将细粒度情感分析精度效果最好的模型封装成原型系统,描述了原型系统的需求分析,并且实现了细粒度分析结果的可视化,为细粒度情感分析系统的实际应用打下了基础。总之,本文针对商品评论网络文本的固有缺陷,提出了一些技术措施。从改进文本表示和优化分类器的角度,提高了情感分类的精度。此外,将本文提出的情感分析精度效果最好的模型封装成原型系统,从系统设计的角度实现了相关功能,可以为细粒度情感分析系统的实际应用提供参考。