给大家分享5篇关于FastText的计算机专业论文

今天分享的是关于FastText的5篇计算机毕业论文范文, 如果你的论文涉及到FastText等主题,本文能够帮助到你

基于深度学习的虚假评论检测

这是一篇关于虚假评论检测,深度学习,卷积神经网络,FastText,产品特征的论文, 主要内容为随着互联网的迅速发展,网上购物以其方便快捷的优势代替了实体店购物,已成为时下最流行的消费方式。出于谋利的目的,电商平台中出现越来越多的虚假评论,这在一定程度上误导消费者的购买趋向,致使消费者买到的商品与描述不符,逐渐丧失对电商平台的信任。为了净化电商环境,研究学者通过提取评论文本和评论者的各项特征并利用传统分类器进行虚假评论检测,虽然这类方法取得了一定的成果,但是提取特征的过程中依赖于专家知识,而且没有考虑相关产品的特征,不具有广泛应用性。虚假评论一般会比真实评论使用更多情感词描述目标产品的特征,针对不同的目标产品,虚假评论者会对不同的特征进行描述,为了使得检测方法适用于不同领域,本文利用产品的相关特征,结合深度学习方法提出了两种虚假评论检测模型。第一种是融合产品相关特征的虚假评论检测方法,该方法将产品相关特征与评论文本组合,以此作为输入来训练卷积神经网络模型实现虚假评论检测,最后将该算法与两个有效的传统分类器组合,降低了过拟合问题,提高检测准确率。第二种是基于FastText的虚假评论检测方法,该方法首先使用语料库训练Word2Vec模型,基于该模型扩充了产品特征词汇集,并建立文本向量,经过卷积层、池化层提取特征后,利用FastText实现分类,解决了产品评论数据集存在的类别不均衡问题,同时提高了模型的训练速度。为了验证算法的有效性,利用Python语言爬取了亚马逊网站的商品评论数据集,并基于该数据集分别针对上述两种算法设计了多组对比实验。实验结果表明,算法一利用产品相关特征有助于提高虚假评论检测的准确度,使用模型组合的方式可以降低过拟合问题。算法二训练Word2Vec进行文本建模能够更好地表示文本的深层语义,使用FastText分类能够解决类别不均衡的问题,提高准确度,同时缩短模型在数据量较大情况下的训练时间。

基于四种分类器的stacking集成方法研究

这是一篇关于超短文本分类,层次贝叶斯模型,FastText,stacking集成算法的论文, 主要内容为随着大数据时代的到来,海量数据也随之涌现。语音、图像、文本等非结构化数据体量的增速远大于结构化数据。其中,产品描述等短文本蕴含了丰富的信息,如何提取这些信息在搜索引擎、新闻主题分类等领域具有重要的研究价值。在电商平台、实体店商品管理场景下,常常需要建立商品的三级品类分类体系用以深刻洞察消费者偏好。然而由于录入不规范等原因,实际商品品类错绑情况较为常见,因而有必要建立商品品类自动识别模型。目前对于长文本分类已经有比较成熟的解决方案,而商品标题分类的难点在于:标题分类是对极具概括性的超短文本进行分类,通常这个标题不超过20个字,往往具有语义模糊性和特征稀疏性。简单将长文本分类方法应用到标题分类上通常无法取得令人满意的结果。本文研究讨论了商品标题基于贝叶斯、近邻法、支持向量机三种传统分类算法和新兴文本分类算法Fast Text的集成方法,并且建立了有效组合四种基分类器的stacking集成模型。使得商品品类自动识别具有了可行性。首先,针对传统中文文本分词中存在的语料不平衡现象,引入4个淘宝关键词词典外部相关词库,在商品标题语料集上得到有效性验证后,使用混合模型,对商品标题文本进行训练,得到相应的词向量表示。其次,研究并优化了贝叶斯、近邻法、支持向量机、Fast Text四种算法模型,对于商品标题中作为品牌的特征词与其他特征词不具有类条件独立性的情况,本文将特征项集合做进一步划分,建立了双层贝叶斯分类模型。最后,对上述四种算法模型进行融合,即建立stacking集成模型。实验结果表明,集成后的算法模型在短文本(商品标题)分类领域的系统稳定性,分类准确度均高于优化后四种基分类器,从而验证了本文提出的stacking集成算法是一种更为有效、准确的超短文本分类算法。

基于知识图谱的陕西旅游问答系统研究

这是一篇关于知识图谱,问答系统,FastText,自然语言处理,旅游文化的论文, 主要内容为在如今的信息时代,人们的生活离不开各式各样的信息。现在在互联网上获取信息已成为人们生活的常态,随着信息数量的持续积累,这也增加用户遴选有效信息的难度。如何规范海量互联网数据,并挖掘其有效信息,方便人们的信息检索,是信息检索领域的一个重要课题。知识图谱的出现为规范化数据提供了新的知识载体,在知识图谱的加持下,搜索引擎等信息检索领域的搜索结果在展示形式、展示质量和用户体验度方面都有了很大的优化。以知识图谱作为知识库的问答系统同样能够更直观地为用户提供精确且便捷的信息检索服务。本文立足于陕西省旅游领域,构建了领域知识图谱和以该知识图谱作为知识库的问答系统,以满足游客对于旅游领域的信息检索需求。本文的主要工作如下:(1)针对不同的数据提供网站,本文设计了三种数据抓取方案,并运用Python的Scrapy爬虫框架和Selenium自动化工具采集多源的景点数据,同时对采集到的信息进行整理与二次筛选,之后参考斯坦福大学的医学领域实体建模方法,构建陕西省旅游知识图谱,并存储在Neo4J数据库中。(2)以旅游知识图谱作为知识库,构建知识问答模型;将快速文本分类模型Fast Text应用到问答模型的构建中,并针对中文问句中短文本的分类环境,提出一种基于字词特征融合的Fast Text改进方案,最终通过实验证明了改进的Fast Text在中文短文本的分类效果上有一定的提高,同时也能提高问答模型处理用户问句的效率。(3)在前文构建的知识图谱和问答模型的基础上,完成陕西省旅游问答助手的开发,包括基于Flutter技术的移动端应用开发、web服务端的开发和问答系统的实现。论文中包含图38幅,表12个,参考文献58篇。