6篇关于文本表示的计算机毕业论文

今天分享的是关于文本表示的6篇计算机毕业论文范文, 如果你的论文涉及到文本表示等主题,本文能够帮助到你 基于机器学习的智能高考志愿推荐系统 这是一篇关于志愿文本,文本表示

今天分享的是关于文本表示的6篇计算机毕业论文范文, 如果你的论文涉及到文本表示等主题,本文能够帮助到你

基于机器学习的智能高考志愿推荐系统

这是一篇关于志愿文本,文本表示,推荐算法,相似度,多元属性的论文, 主要内容为随着互联网和教育信息化的快速发展,个性化推荐系统在教育领域的应用已越来越广泛。填报志愿是高考中的一个重要环节,但是考生面对众多院校、专业的情况下,很难迅速获取有效信息,做出适合自己的个性化的选择。本文通过分析考生和家长的个性化需求,从海量的学校和专业中挖掘出有价值的信息,推荐给考生和家长,为考生填报志愿提供帮助。本系统从各大网络平台获取了各高校的相关数据作为高考志愿文本中的历史数据,并且针对历史数据中,特征词汇较少的情况,增加了维基百科的数据作为扩展来训练词向量。针对传统的文本表示方法没有考虑语义、存在维度灾难的问题,将word2vec引入到基于内容的推荐算法中,改善了现有的相关网站只通过关键词搜索,搜索结果不含语义特征的现象。同时,对于现有的相关网站存在只能根据特定的专业进行信息检索的缺点,并考虑考生和家长所提出的专业意向比较自由、偏口语化的现象,将余弦相似性方法与简单共有词方法相结合,改进文本相似度计算方法,从而解决了考生和家长不知道院校中某专业的具体专业名称的问题。接着对历史数据中的多元属性,如院校等级、专业等级、校园环境、师资力量设置权重,优化了现有的个性化推荐系统。最后基于以上提出的优化方法,设计并实现了一个高考志愿推荐系统。经过实验验证,优化后的系统改进了现有相关网站的检索功能。

商品评论细粒度情感分析系统设计与实现

这是一篇关于细粒度情感分析,短文本,深度学习,文本表示,BERT的论文, 主要内容为传统的文本情感分析在一些仅需情感极性判定的领域,如网络舆情分析、股评分析等,已体现出较好的应用价值。然而,随着应用的深入,用户如希望进一步获得评价对象属性所对应的具体情感分析结果,传统的情感分析则不能完全满足需求,为此,细粒度情感分析便应运而生,并得到越来越多的重视。不过,目前在细粒度情感分析的文本表示上,依然存在着许多困难和挑战。比如,商品评论属网络文本,存在文本短、重点信息多、不规范、表达方式复杂等特性,甚至可能存在未登录词,或情感词缺少对象属性等问题。此外,现有电商平台还未实现细粒度情感分析系统的实际应用,如何把算法应用到实际生活,这也是一个具有挑战性的工作。本文针对细粒度情感分析中的这些关键问题,在总结国内外细情感分析理论及其研究成果基础之上,主要研究内容包括以下五个部分:(1)通过引入词频-逆文档频度(Term Frequency-Inverse Document Frequency,TF-IDF)技术对关键词向量进行权重标注,再使用文本卷积网络(Text Convolutional Neural Networks,TextCNN)进行情感分类,从而提高细粒度情感分类的准确性。经过实验证明,相较于传统的TextCNN在细粒度情感分类的精度上有所提高,为解决关键词向量权重问题提供了很好的解决思路。(2)通过在输入时引入联合字词表示加强文本表示,在使用面向方面嵌入的门控卷积网络模型(gate convolutional network with Aspect embedded,GCAE)分类前添加一层额外的长短时间记忆模型(Bi-Long Short Term Memory,BiLSTM)改善其长句信息丢失的问题,从而提高细粒度情感分类的准确性。经过实验证明相较于经典的GCAE模型在细粒度情感分类的精度上有所提高,为改进经典模型提供了很好的解决思路。(3)针对静态词向量在文本表示上的不足,用动态分字预训练模型加强文本表示,使用预训练模型(Bidirectional Encoder Representations from Transformers,BERT)进行微调,以达到文本表达的较好效果,并使用集成学习的分类方法对两种分类器加强情感分类,从而达到较为精准的细粒度情感分析。经过实验证明,该模型对提高细粒度情感分析的精度有着最好的效果和精度。(4)针对商品评论文本的不规范性问题,本文使用基于深度学习的改进模型,使其能自动对新增词汇进行特征学习,不需要额外的人工干预。(5)本文将细粒度情感分析精度效果最好的模型封装成原型系统,描述了原型系统的需求分析,并且实现了细粒度分析结果的可视化,为细粒度情感分析系统的实际应用打下了基础。总之,本文针对商品评论网络文本的固有缺陷,提出了一些技术措施。从改进文本表示和优化分类器的角度,提高了情感分类的精度。此外,将本文提出的情感分析精度效果最好的模型封装成原型系统,从系统设计的角度实现了相关功能,可以为细粒度情感分析系统的实际应用提供参考。

基于深度学习的文本分类研究

这是一篇关于深度学习,特征提取,文体分类,文本表示的论文, 主要内容为随着互联网的不断发展,网上的文本数据越来越多,这些文本数据有着丰富的信息。如果能将这些文本数据进行初分类,那么更有利于从这些海量的文本数据中提取出有用的信息,因此文本分类是文本处理过程中不可或缺的环节。构建知识图谱的过程就是对文本数据进行处理,挖掘其中有价值的信息。对人类而言,文体分类有助于构建文体意识,对写作和阅读理解有极大的帮助。对机器而言,文体分类同样有助于机器解读、接受文本传达的信息和生成用户需要的文本,对知识图谱后续的构建过程有极大的帮助,例如后续的实体抽取、关系抽取、摘要抽取、知识推理等过程。因此,文体分类对知识图谱的构建是十分有意义的。本文的研究目标是将输入文本分成记叙文、议论文和说明文三大类。各个领域海量的文本数据,可以简单分为短文本以及长文本。在特征提取过程中,短文本的信息量少,更注重关键词信息;长文本的信息量大,更注重上下文之间的联系。基于上述考虑,本论文分别对短文本和长文本的文体分类任务进行了研究,并采用深度学习的方法完成研究目标。本文的主要工作和贡献如下:1.针对短文本提出基于文体特征的文体分类模型。根据对短文本的文体分类特点分析,基于短文本的词法和句法特征设计了文体特征向量。由于目前的词向量未充分利用分类类别的文体特征信息,所以将文体特征向量与词向量融合,增强了词嵌入所蕴涵的分类类别信息量。再利用卷积神经网络对向量进行特征提取,构建基于文体特征向量的文体分类模型。2.针对长文本提出基于语序特征的文体分类模型。根据对长文本的文体特点分析,对长文本进行切分,结合BERT预训练模型的优点,用BERT模型得到长文本的句子向量表示。双向循环神经网络能够有效的识别并提取文本数据中的语义特征,因此利用双向循环神经网络学习文本的语序特征,并且引入Attention技术,提升分类模型的分类效果,最后将通过CNN网络提取到的局部特征作为特征补充,由此构建了一个基于语序特征的文体分类模型。3.通过对比实验证明了上述两种文体分类模型的有效性,基于上述思想设计并实现了文体自动分类系统。该系统分为模型训练部分和文本自动分类部分,模型训练部分通过调用数据库中的文本数据进行训练得到模型参数并保存,文本自动分类部分根据输入文本长度加载相应的模型,返回文体分类结果。

不平衡文本的情感分析在民宿评论中的应用

这是一篇关于不平衡文本,文本表示,重采样,代价敏感,胶囊网络的论文, 主要内容为在线民宿短租行业是将互联网平台和共享经济结合起来的新兴产业,凭借其多样化、个性化和便捷化的特点,给人们带来了全新的住宿体验。然而,相较于传统酒店行业的高效管理和高质量服务,民宿行业的安全系数、管理效率和服务水平都有待提升,如何与酒店竞争用户是民宿行业亟需考虑的问题。另外各大民宿平台之间的竞争愈演愈烈,提升自身的服务竞争力和用户满意度刻不容缓。用户评论数据是促进民宿行业健康持续发展的关键信息,它不仅能够为用户提供房源参考信息,而且还可以给房东和平台提供用户满意度信息和改进建议。本文基于民宿行业的研究现状和趋势,提出将不平衡文本的情感分析方法应用于民宿评论领域。本文的主要贡献有两部分:一方面对民宿评论文本进行统计分析,发现影响用户满意度的主要因素有房屋设施、隔音效果、地理位置等。另一方面将不平衡文本处理和分类模型优化结合起来,基于民宿评论文本构建情感分类模型,主要从文本表示方法、重采样技术和分类算法三个角度改进和优化模型。第二部分的研究内容和结论如下:(1)将评论文本转化为Word2Vec和BERT句向量,对比两者在传统分类模型中的预测效果,验证了 BERT的文本表达能力更强,后续研究均采用BERT表示方法。(2)针对训练集数据不平衡引发少数类样本分类精度低的问题,利用各种重采样技术平衡训练集,并使用传统模型Logistic回归和Adaboost进行分类,证明了过采样和组合采样方式对模型整体精度的提升比较有效。(3)构建集成学习模型、代价敏感模型和深度学习模型,并验证了三类方法均能提升样本数据的分类效果,其中集成学习和代价敏感方法的计算和时间成本较低,而深度学习方法的优势在于预测精度更高,且本文设计的基于BERT-Embedding和重采样技术的ATT-BLSTM-CapsNet模型对民宿评论文本的情感分类效果最好,好评和差评数据的预测精度均达到95%左右,基本解决了不平衡数据引发的预测失衡问题。(4)根据研究对比结果为民宿行业提供不同需求下的高效率情感倾向分类模型,对于用户、房东和平台均有参考价值。

不平衡文本的情感分析在民宿评论中的应用

这是一篇关于不平衡文本,文本表示,重采样,代价敏感,胶囊网络的论文, 主要内容为在线民宿短租行业是将互联网平台和共享经济结合起来的新兴产业,凭借其多样化、个性化和便捷化的特点,给人们带来了全新的住宿体验。然而,相较于传统酒店行业的高效管理和高质量服务,民宿行业的安全系数、管理效率和服务水平都有待提升,如何与酒店竞争用户是民宿行业亟需考虑的问题。另外各大民宿平台之间的竞争愈演愈烈,提升自身的服务竞争力和用户满意度刻不容缓。用户评论数据是促进民宿行业健康持续发展的关键信息,它不仅能够为用户提供房源参考信息,而且还可以给房东和平台提供用户满意度信息和改进建议。本文基于民宿行业的研究现状和趋势,提出将不平衡文本的情感分析方法应用于民宿评论领域。本文的主要贡献有两部分:一方面对民宿评论文本进行统计分析,发现影响用户满意度的主要因素有房屋设施、隔音效果、地理位置等。另一方面将不平衡文本处理和分类模型优化结合起来,基于民宿评论文本构建情感分类模型,主要从文本表示方法、重采样技术和分类算法三个角度改进和优化模型。第二部分的研究内容和结论如下:(1)将评论文本转化为Word2Vec和BERT句向量,对比两者在传统分类模型中的预测效果,验证了 BERT的文本表达能力更强,后续研究均采用BERT表示方法。(2)针对训练集数据不平衡引发少数类样本分类精度低的问题,利用各种重采样技术平衡训练集,并使用传统模型Logistic回归和Adaboost进行分类,证明了过采样和组合采样方式对模型整体精度的提升比较有效。(3)构建集成学习模型、代价敏感模型和深度学习模型,并验证了三类方法均能提升样本数据的分类效果,其中集成学习和代价敏感方法的计算和时间成本较低,而深度学习方法的优势在于预测精度更高,且本文设计的基于BERT-Embedding和重采样技术的ATT-BLSTM-CapsNet模型对民宿评论文本的情感分类效果最好,好评和差评数据的预测精度均达到95%左右,基本解决了不平衡数据引发的预测失衡问题。(4)根据研究对比结果为民宿行业提供不同需求下的高效率情感倾向分类模型,对于用户、房东和平台均有参考价值。

基于知识图谱的短文本分类研究

这是一篇关于短文本分类,知识图谱,特征拓展,文本表示的论文, 主要内容为随着互联网技术的快速发展,短文本以其精简高效、便于传播的特点,在网络新闻、即时通信、社交媒体等领域得到广泛应用,随之产生了海量的短文本数据,如何从海量短文本数据中快速挖掘有价值的隐含信息,逐渐成为热点研究问题。但是短文本具有篇幅短小、包含的有效信息少、在网络中传播时口语化严重的特点,传统的文本分类方法无法得到理想的分类结果。本文针对短文本分类中特征稀疏性和不规范性问题进行研究,主要的工作内容和创新点如下:(1)总结归纳了短文本分类的相关方法和研究现状。本文首先介绍了短文本分类的研究背景和意义,定义了短文本分类中的特征稀疏和不规范性问题,然后重点介绍了以上问题的现有解决方法,对比了各个方法的优缺点,并归纳总结了各个方法近年的国内外研究现状。(2)提出了一种基于知识图谱的短文本特征拓展方法。该方法针对短文本特征稀疏问题,利用知识图谱获取高质量的知识,作为特征拓展项丰富短文本的上下文特征。首先,利用TextRank提取短文本中权重较高的词语作为关键词,然后,将关键词链接到知识图谱中的实体,利用关键词与候选实体上下文相似度进行实体消歧,得到目标实体,最后将目标实体及其摘要描述信息作为关键词的特征拓展项,拓展短文本的特征。(3)提出了一种融合知识图谱与深层语义的短文本分类模型BERT-KG。该模型针对短文本的不规范性问题,改进了BERT预训练模型,得到BERT-KG模型,使其可以融合短文本的背景知识,利用BERT-KG模型获取包含了背景知识的短文本的深层语义,输出对应的短文本表示向量,用于短文本分类任务,提高了分类结果的准确性。(4)设计并实现了一个基于UGC平台的短文本敏感内容分类系统。将本文提出的方法和模型应用到实际项目课题中,设计并实现了基于UGC平台的短文本分类敏感内容系统,该系统利用项目课题提供的原始数据生成了训练数据集,训练得到短文本敏感内容分类模型,并设计实现了分类结果可视化模块,最后为了方便外部调用和系统集成,进一步设计并实现了基于本文方法的短文本表示向量输出接口和短文本敏感内容分类结果输出接口。

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕业设计工坊 ,原文地址:https://m.bishedaima.com/lunwen/48262.html

相关推荐

发表回复

登录后才能评论