7篇关于文本特征提取的计算机毕业论文

今天分享的是关于文本特征提取的7篇计算机毕业论文范文, 如果你的论文涉及到文本特征提取等主题,本文能够帮助到你

基于文本信息处理的深度网络推荐技术研究

这是一篇关于推荐系统,协同过滤,深度学习,文本特征提取,注意力机制的论文, 主要内容为大数据时代,推荐系统在对抗信息过载问题上起到了重要作用。传统的协同过滤推荐算法仅利用交互信息进行建模,由于可供模型训练的数据种类单一、信息不足,可能导致推荐效果不佳,因此,许多工作将文本作为辅助信息引入到推荐模型中以提供额外的数据输入。但是,现有的基于文本的推荐方法往往忽略了用户的多样性偏好(用户的偏好特征会随着面对的项目不同而改变),或是没有在建模过程中充分利用输入的文本信息。针对上述问题,本文借助多种深度网络模型,对基于文本信息处理的深度网络推荐技术展开了研究,并完成了以下研究工作:(1)为了对推荐任务中的用户的多样性偏好与项目特征进行更细粒度的建模,提出了一个基于文本的注意力神经网络推荐模型ANAR。该模型通过卷积网络抽取用户与项目评论中的文本信息,并通过一个特别设计的注意力机制,动态捕获不同用户-项目交互过程中用户所产生的不同的偏好与关注。在多个公开数据集上进行的对比实验证明,ANAR的评分预测推荐表现优于几个前沿的推荐模型,且所设计的注意力机制有利于模型更好地建模用户与项目的交互表示,从而提升推荐性能。(2)为了更充分地利用输入的文本信息,并更好地建模复杂的用户-项目交互关系,提出了一个基于文本的图卷积网络推荐模型RAGCN。该模型通过图卷积网络建模用户和项目的交互,通过消息传递与消息聚合的策略完成对于用户和项目节点特征的更新。利用BERT抽取项目评论文本所含的特征信息,并作为图中的节点参与到整个消息传递过程中,帮助模型更好地建模用户与项目的特征表示。考虑到不同的用户节点与项目节点对于彼此的重要性有所不同,设计了一个注意力机制来对节点之间的消息传递进行调节。在多个公开数据集上进行的对比实验证明,RAGCN相比几个前沿的推荐模型具有更优的Top-N推荐表现。

瓦轴集团产品售后质量反馈及数据分析系统研究

这是一篇关于产品售后质量反馈,数据分析,文本特征提取,数据挖掘的论文, 主要内容为瓦轴集团现有产品售后质量反馈过程存在诸多不足,比如客户反馈数据纸质登记,人工统计产品质量问题造成大量售后数据保存不合理,且数据多是非格式化数据且量大,在这一过程中耗费很大的人力物力。当前信息化社会中瓦轴集团原有产品售后质量反馈机制已无法适应客户对企业的新要求,因此借助先进的信息化手段及产品售后管理思维,提出产品售后质量反馈及数据分析系统的研究。本文首先对信息系统开发技术进行了研究,采用B/S架构、J2EE平台、Mybatis框架、Spring MVC框架等技术实现了售后质量管理、改进管理、可视化管理等功能模块。实现售后故障单、索赔管理、抱怨处理的信息化处理。对文本特征提取技术、数据挖掘技术进行了研究,将采集的数据进行筛选,采用文本特征提取技术提取质量反馈、抱怨投诉等非格式化文本数据中的特征信息,将所有数据采用数据挖掘算法进行特征选择、降维处理,获取各阶段故障率分析、PPM推移图分析等信息,实现了售后质量统计分析、管理KPI月度考评、过程能力考评、质量监控、计划监控等功能。系统的应用可以实现对数据仓库内收集的产品售后质量资料、反馈及数据分析内容的统一分析、归类及处理,从中获得有利于瓦轴集团业务发展的有利数据,借助真实的客户关系管理检测已有的研究成果。通过应用数据挖掘技术与文本特征提取技术能够有效的反馈产品售后质量并提供数据分析功能,有利于瓦轴集团更好的解决当前问题。该论文有图43幅,表17个,参考文献43篇。

瓦轴集团产品售后质量反馈及数据分析系统研究

基于知识图谱的新闻推荐系统研究

这是一篇关于新闻推荐,知识图谱,知识图谱嵌入,用户兴趣向量,文本特征提取的论文, 主要内容为近年来,提供给客户喜欢的资讯信息已经变成互联网新闻平台的重要目标。然而传统的推荐方法对新闻信息的特征提取并不理想,导致用户无法准确地找到感兴趣的新闻。对此,研究人员提出将知识图谱作为推荐算法的辅助信息,用来提高新闻推荐的准确率,成为了当前推荐研究领域的热门话题。本文提出了一种基于知识图谱的新闻推荐算法,采用联合实体邻居信息的知识图谱嵌入模型和注意力与多视角融合的特征提取算法提取新闻信息,以提高新闻推荐的准确率,主要的研究内容如下。(1)提出了一种联合实体邻居信息的知识图谱嵌入模型(NA-KGE)。该模型构建了实体之间的交互,不仅考虑实体和邻居实体之间的语义关系和影响权重,并提取了知识图谱的结构特征,有效地挖掘出了知识图谱中的丰富信息,提高了模型的编码能力,实验验证了这种知识图谱嵌入方法的有效性。(2)提出了一种基于知识图谱的新闻推荐算法(KGNR)。该模型将新闻特征信息和知识图谱的语义信息进行拼接构建推荐模型,其中新闻特征信息提取通过注意力与多视角融合的新闻特征提取算法(ATBE),该算法将新闻的标题、正文、事件信息通过注意力机制进行融合,并通过实验验证了KGNR推荐方法的有效性。(3)设计并实现了一套基于KGNR的金融新闻推荐系统。根据用户需求实现个人主页模块,网站管理模块、注册登录模块、新闻主页模块、收藏评分模块,阐述了各个模块的技术和功能设计。系统体系结构采用B/S并划分为表示层、业务层、策略层和数据层,其中KGNR在策略层产生推荐结果,为用户带来即时、准确的新闻推荐服务。

知识增强的新闻事件识别技术研究

这是一篇关于新闻事件识别,主题模型,文本特征提取,语义知识,预训练词向量的论文, 主要内容为随着互联网和自媒体的发展,在线新闻的规模与传播范围得到了极大的扩展。面对海量的在线新闻文本,如何根据其描述的内容对其进行划分和聚集,以实现新闻事件识别,是一个值得研究的问题。这一技术不仅有利于各种组织机构及时、准确地发现新闻事件,而且是把握热点舆情、分析开源情报等自然语言处理任务的基础步骤。从技术层面看,部分现有的新闻事件识别算法仅考虑了语料的统计特征,却忽略了实体信息、同义词、一词多义等语义知识,增加了模型的过拟合风险,并降低了其可解释性。针对上述问题,本文研究了知识增强的新闻事件识别技术,利用知识库/知识图谱、预训练词向量等外部知识源提升现有方法的性能。该技术以知识增强的文本主题模型为核心,综合主题建模、文本聚类、相似事件识别与分离、跨聚类事件融合等步骤,实现海量文本中新闻事件的识别。基于服务化的系统设计思路,设计并实现了支持流式处理的新闻事件识别与分析系统,不仅实现了事件识别方法的工程化,还支持多种面向用户的事件分析功能。本文的主要工作与创新如下:(1)提出并实现了知识增强的文本主题模型针对传统的潜在狄利克雷分配模型(LDA)过度依赖语料统计特征的问题,提出词语级语义知识增强的主题模型TSE-LDA(Token-Level Semantic Enhanced LDA)。该模型以知识库/知识图谱为外部知识源,以实体链接为沟通知识源和训练语料的手段,在传统LDA模型中添加语义单元结构,为模型提供面向实体的同义词和一词多义信息。在此基础上,将Word2Vec预训练词向量融入TSE-LDA模型,得到融合预训练词向量的知识增强主题模型WVTSELDA(Pretrained Word Vectors and Token-Level Semantic Enhanced LDA)。预训练词向量不仅为模型提供了数量可观的潜在特征,也令其能够更好地利用词语间的关联关系。本文从主题内聚性和文本分类准确率两个指标入手,综合定性定量两种方式评估了模型的效果。实验结果显示,本文提出的模型在上述两个评价指标上的表现均较为优秀。(2)提出并实现了基于知识增强主题模型的新闻事件识别方法新闻事件的识别包括文档主题特征提取、单批次事件识别和全局事件识别三个主要流程。文档主题特征提取流程使用WVTSE-LDA模型进行文档主题建模。针对模型潜在主题数的设置问题,采用基于主题稳定性的潜在主题数设定方法,实现模型超参数的自适应选择。单批次事件识别通过对某一新闻文本集合进行聚类来识别可能的新闻事件。针对新闻文本的聚类问题,采用近邻传播聚类算法加以解决;针对某个文本聚类可能包含多个相似新闻事件的问题,提出基于时间和事件参与者特征的相似事件识别与分离方法,形成包含单个新闻事件的文本聚类。另外,两个批次的文本聚类可能反映同一个新闻事件。为解决这一问题,提出基于文本语义单元表示的跨聚类事件融合方法,实现全局层面的事件识别。定量评估结果显示,上述技术在测试数据集上取得了较为理想的效果,可以满足新闻事件识别的功能要求。(3)设计并实现了支持流式处理的新闻事件识别与分析系统为实现知识增强的文本主题模型和基于这一模型的新闻事件识别方法,设计并实现了支持流式处理的新闻事件识别与分析系统。通过Apache Flink框架,实现新闻数据的流式处理。基于新闻事件的识别方法,设计并实现了若干面向用户的新闻事件分析服务,提供事件走势分析、事件词云生成、热门观点获取等上层的事件分析功能。