虚假商品评论识别研究
这是一篇关于虚假评论,商品评论,情感词典,语义相似度,多特征融合的论文, 主要内容为网络购物的迅速发展,使得电子商务网站涌现出大量针对商品或服务的用户评论,越来越多的消费者倾向于依赖在线商品评论来评估商品或服务质量,进而影响购买决策。然而随着商品评论在购买决策中的重要作用得到越来越多的重视,某些商家或个人在经济利益的驱使下,雇佣大量的虚假评论制造者进行刷单并给出好评。虚假评论极具迷惑性,普通消费者很难通过人工判断来辨别某条评论是否属于虚假评论。这些虚假评论不仅影响了用户的购买决策,还扰乱了公平的市场环境。针对这一现象,许多研究者进行了虚假评论的识别探究。一方面,研究者们通过深度挖掘评论文本特征,借助机器学习算法检测虚假评论文本;另一方面,研究者们敏锐地意识到,虚假评论者的异常行为是研究的一个突破点,可以通过挖掘评论者反常行为特征找到这些虚假评论者。然而,现有的研究对评论文本特征的挖掘不充分,没有考虑到语义层面词语之间的依存关系。为此,本文聚焦于构建领域情感词典和检测评论文本语义相似度。本文对这两种文本特征进行深度挖掘,力求准确地识别电商平台出现的虚假评论,具体展开了以下工作。(1)本文对评论的情感倾向性进行了分析,并采用一种改进的情感倾向点互信息(Semantic Orientation-Pointwise Mutual Information,SO-PMI)算法,用于构建适应电商评论的情感词典。真实评论与虚假评论中情感词的分布有较大差异,在情感方面,虚假评论往往比真实评论表现得更加强烈。因此,该算法基于种子情感词,通过Text Rank算法选出候选关键词,并基于词共现频率和词共现距离得出待测词情感倾向,再将待测词加入到情感词典中。(2)本文针对电商平台复制型虚假评论,提出了一种基于依存句法分析的语义相似度计算方法。鉴于虚假评论制造者对评论文本进行互相拷贝的情况,识别语义相似的评论有助于虚假评论的检测。(3)本文首先从三个不同角度选取了文本特征、行为特征以及商品特征;接着进行了多特征融合实验;然后将基线模型与集成学习模型进行比较;最后实验结果表明本文提取的特征能有效提升分类性能,并验证了Stacking方法的效果最好。
基于文本挖掘的商品评论的研究分析
这是一篇关于商品评论,情感分类,LDA主题模型,情感词典,决策树的论文, 主要内容为随着互联网速度的不断更迭,越来越多的人们热衷于在电商平台上购买必需品。而对于任何一种商品来说,消费者首先关注的就是该商品的评论,从而去判断该款产品是否值得购买。商品评论代表的是消费者对于商品最真实的评价,这些评价的文本信息中包含了巨大的价值,企业可以从评论中快速聚焦商品的优势与劣势,消费者的购物习惯及一些附属服务等,对一些缺点进行相应的改造管理,提升消费者的满意度,扩大企业影响力。而传统的社会调研已经不能满足当今快速发展社会的要求,我们更需要的是一种方法可以快速从海量的评论中获取自己想要的信息,因此基于文本挖掘的评论情感分析就应运而生。本文对京东商城下的某品牌电脑评论进行了分析,利用LDA主题模型实现了对好评差评的主题词的提取,其次就是分别利用情感词典和决策树实现了情感分类,完成了对该品牌电脑评论的分析,为消费者提供了相关的选择建议。首先,经过数据的预处理后,画出词云图,得出消费者最看重的是该品牌电脑的外观和速度。然后再利用LDA主题模型分别对好评和差评进行主题分析,利用余弦相似度来优化主题数,再分别将好评和差评在各个主题下词频前十的词语进行了输出,画出词云图。得出无论是好评还是差评,都是主要根据电脑性能和售后服务这两个主题来评价的,那么商家未来可以在这两个方面上进行改进。最后就是利于两种方法进行文本情感分类,分别是基于情感词典的情感分类和基于决策树的情感分类,并且对于决策树的情感分类来说,还要进行优化参数的步骤,借此让模型的分类效果达到更好。再通过精确率、召回率、F1值这些指标,可以看出在本文的数据集中,基于情感词典的分类方法表现比较好。同时也说明这两种方法都可以运用于情感分类中。
面向用户评论的商品评估系统的设计与实现
这是一篇关于商品评论,情感分析,网络爬虫,情感词典的论文, 主要内容为在互联网高速发展的今天,电子商务,特别是移动电子商务,在众多新兴技术的推动下获得了飞速的发展。互联网电子商务网站摆脱了实体商铺以及地域的限制,以其丰富的商品种类和方便快捷的购物体验获得了消费者的青睐。人们的消费方式也随之发生了转变,线上购物的消费方式逐渐被人们所接受。庞大的用户群体在电商网站上进行加购、下单、付款、评价等活动,由此产生的海量电子商务数据蕴含了大量具有商业价值的信息。现有电子商务评论多以星级评分形式展示,不能直观体现商品的具体特征。电商平台的用户评论数据往往数量极其巨大,从海量的文本类型的评论中分析用户的兴趣和偏好,提取出用户关心的话题,成为对用户进行精准营销时必须面对和解决的基础性、关键性的问题。向用户提供更加全面的商品评估信息,不仅有利于用户快速获取商品的使用体验,而且有利于电子商务企业根据市场需求提升商品和服务质量。本研究从电商平台采集了大量的用户评论数据,使用改进后的电商领域情感词典对用户评论进行情感分析,设计并实现了面向用户评论的商品评估系统。由于使用情感词典的情感分析方法高度依赖情感词典的质量,而情感词典的质量是与描述的话题紧密相关的,不同的词在不同的领域可能存在完全相反的情感倾向,因此构建高质量的情感词典是提升情感分析准确度的关键。本研究在通用情感词典的基础上加入搜集到的具有情感色彩的网络词汇作为基础情感词典,合理的选择电商领域的特征词汇作为候选情感词对基础情感词典进行扩充,利用程度副词和否定词对评论文本进行加权计算情感得分,根据情感得分对商品进行评估并以可视化的形式展示。结果显示,本商品评估系同能够较好的区分出用户评论的情感倾向,综合用户评论计算出较为合理的情感得分,词云图能够直观展示出用户最为关注的产品特征,具有良好的实用性。本研究严格按照软件工程的开发流程,从需求分析、系统设计与实现、系统测试等方面对商品评估系统进行了详细的阐述。
基于情感词典的美妆领域在线评论文本情感分类研究
这是一篇关于评论文本,美妆,情感分类,情感词典的论文, 主要内容为随着网络购物的出现和普及,人们已养成了线上购物以及在线发表商品评论的习惯,各个电商平台上都累积了大量的用户评论文本,针对这些文本进行自动情感分类对平台的各方使用者都有重要意义。本文以基于规则的情感分类方法展开,以电商平台中美妆领域在线评论文本为研究对象,研究目的在于对现有的情感词典进行改进和扩充,构建出更加适用于美妆领域在线评论文本的情感词典,并制定配套的情感计算规则,提升该领域在线评论文本的情感分类效果。本文主要从以下三个方面开展研究工作:第一,将已有的两部通用情感词典HowNet情感词典和中文情感词汇本体库分别应用于美妆领域在线评论文本的情感分类,考察其分类效果。实验发现已有的两部情感词典在美妆领域在线评论文本的分类中效果均不理想,表现出较低的准确率、召回率和F1值。接着对实验中产生分类错误的文本进行分析和总结,共总结出4类导致分类错误的原因,据此归纳出已有情感词典在美妆领域在线评论文本的情感分类中需要改进的三个方向。第二,按照归纳出的方向对已有情感词典进行有针对性的改进和扩充,通过对大规模真实文本的统计和语义分析完成情感词典的构建,最终构建出由基础情感词典、新增情感词典以及辅助词典三部分共7个子词典构成的美妆领域在线评论文本情感词典,并制定出针对词项和文本两个层面的配套情感计算规则,实现完整的情感自动分类系统的建立。第三,将本文所构建的美妆领域在线评论文本情感词典应用于实际评论文本的情感分类。将基于本文所构建词典的分类实验结果与基于两部已有通用词典的分类实验结果进行对比,分析评价指标的变化情况,以此来考察本文所构建词典的分类有效性。并对实验中产生分类错误的文本进行分析,总结目前的分类方法中仍存在的不足之处,以期今后能有进一步的发展完善。实验结果显示,基于本文所构建的美妆领域在线评论文本情感词典的分类方法在针对该领域正、负向情感文本进行分类计算时,准确率分别达到97.75%和91.03%,召回率分别达到94.19%和86.27%,F1值分别达到95.94%和88.59%,与基于已有情感词典的实验结果相比提升显著,实现了较好的情感分类效果。
基于ELMo和Bi-SAN的中文情感分析算法研究
这是一篇关于情感分析,ELMo词向量,双向自注意力网络,情感词典,特征融合的论文, 主要内容为情感分析是自然语言处理中的基本任务,属于文本意见挖掘范畴,是指对文本数据进行清洗、处理、提取相关特征并计算判断文本蕴含的情感倾向,为各项决策提供依据,被广泛应用在舆情分析、经济发展、法制建设和推荐系统等方面。大量学者对情感分析任务展开研究,已经取得了一定的成果,但仍存在一些挑战。如静态词嵌入方式由于一词多义问题致使提取的特征存在偏差;传统的卷积、循环结构的深度学习网络无法对文本整体进行处理导致特征提取不充分;现有情感分析算法多数仅使用单一词向量作为输入,提取的特征单一,导致分类结果过度依赖词向量等等。针对上述问题,本文主要研究内容包括:1.针对目前深度学习算法常以静态词嵌入技术进行文本向量化,无法解决一词多义现象使得文本情感特征提取存在偏差的问题,提出了改进的ELMo(Embedding from Language Model)语言模型实现词嵌入,并结合双向长短期记忆网络的情感分析算法,ELMo语言模型能够生成融合词义、句法和语义的词向量,通过双向长短期记忆网络提取词的上下文特征,提高了中文文本情感分析算法的分类准确度。2.针对卷积神经网络在提取文本特征时的局限性以及双向长短期记忆网络耗时较多且特征提取不全面的问题,提出使用融合相对位置编码的双向自注意力网络进行情感分析。该网络任意词之间直线连接,能够很好的提取文本的长期依赖关系并且速度更快;每一词都能从上下文的所有词中提取特征,并能自适应的学习到对于情感倾向性判断更为关键的特征;同时,引入相对位置编码弥补自注意力机制无法学习序列特征的不足。对比实验结果表明所提算法的可行性和有效性。3.针对现有深度学习算法仅使用单一词向量作为输入,特征提取时过度依赖词向量的不足,引入词性、情感词典先验知识以丰富文本特征,使用自注意力机制编码词性、情感词典特征,通过门控单元与研究内容2中的词向量特征进行融合,突出情感特征,降低噪声影响。实验结果表明引入情感先验知识丰富文本特征的方法是有效的,进一步提升了情感分类的精度。
基于Spark的微博话题情感分析系统的设计与实现
这是一篇关于Spark,Hadoop,情感分析,情感词典,Bi-GRU的论文, 主要内容为微博话题几乎涵盖了所有生活中的事件,尤其热门话题的讨论最能提升微博用户的参与感,提高微博用户在平台上的社交意愿,增加微博用户与平台的亲密关系,从而形成一个重要的传播网络。微博话题吸引了众多对某事件感兴趣的人群,形成了一种新颖的信息传播形式和社交分布圈。因此对微博话题的情感分析对研究这一传播方式有很重要的意义。但随着网络时代的来临,网民数量急剧增长,微博博文量级呈指数增长,普通的单机串行的情感分类方法已经很难处理如此庞大的数据,且运行时间过慢,还可能有做成系统崩溃的可能性。基于此,本文将着重讨论Spark平台对大量微博数据进行高效处理等技术手段,通过探究、分析、实验等方法证实使用Spark平台进行混合学习的情感分类算法可以大幅减小串行下对该话题的情感分析时间,从而实现较快的情感分类。本文在传统文本预处理算法与情感分类算法的基础上,对基于Spark分布式平台的情感分类关键问题进行了研究,具体工作总结如下:1、首先收集用户对话题的情感分析的需求,并做调研分析,据此确定本系统的总体架构,包括数据库和web开发框架的选择,并在这个基础上确定系统的软件分层逻辑架构设计,最后完成对系统的总体功能设计。2、提出了基于改进的情感词典和BI-GRU的混合学习情感分析模型,在第一阶段利用基于改进的情感词典的情感分类方法来确定得分极高或极低的文本的倾向。第二阶段,基于深度学习的方法在情感倾向模糊的数据集上效果更好,再通过BI-GRU单元得出剩余文本的情感极性,并通过实验证明了本文提出的这种混合模型相较于其他现有模型有一定的效果提升。3、结合本文提出的情感分类算法的特性与Spark计算分布式计算平台的特点,实现了基于Spark平台的并行化的情感分类算法。利用NLPCC会议的数据集进行了并行情感分类的实验与分析,证实了Spark分布式平台处理大数据的可扩展性和优越性。4、最后在确定的系统架构的基础上,搭建了Hadoop和Spark等大数据分布式平台,并实现了以前后端分离的react+Spring Boot框架,将产生的文件部署到Nginx中的方式,实现了基于分层逻辑架构的软件系统,实现了本系统的各功能模块,包括情感分类、情感报告、用户管理和任务管理等功能模块。通过系统测试,验证了本系统的稳定性和高效性,且能满足用户的提出的需求,具备了初步的使用价值,并也具有很好的拓展价值。
基于互联网营销平台的用户评论情感分析研究与应用
这是一篇关于文本情感分析,情感词典,BERT,神经网络模型,自注意力机制的论文, 主要内容为在传统行业利用“互联网+”创新模型进行产业升级的背景下,浙江省某大型企业运用互联网技术实现了“互联网+营销”的信息化平台建设,自该营销平台正式上线以来,平台中用户对营销产品的评论数据获得了爆发式的增长,如何从这些文本数据中挖掘出用户对产品的反馈意见,并辅助企业对产品进行升级改进是当前企业所关注的重点问题。为此本文在该营销平台百万级用户的评论数据支撑下,提出了融合先验知识的深度学习网络算法与基于改进BERT的双通道神经网络算法的文本情感分析方法,对用户评论数据进行情感分析,挖掘用户对营销产品的意见看法,最后结合互联网营销平台实现了所提算法模型的应用。本文的主要研究内容总结如下:1)针对情感词典构建成本高且文本向量化后的词向量所蕴含的情感特征不足的问题,提出一种融合先验知识的深度学习文本情感分析算法。首先,该方法采用向量余弦相似度计算与SO-PMI算法实现领域情感词典的自动化构建,然后将领域情感词典作为先验知识库对文本序列进行情感增强。其次,使用Word2Vec词嵌入模型获得情感增强后的文本词向量序列,在特征提取层上采用双向门控循环单元网络与自注意力网络来对文本情感特征进行捕获。经实验表明,所提算法模型对比其他基准模型能够更加高效的捕获文本情感特征。2)针对当前情感分析任务中静态词嵌入模型无法有效对多义词进行向量表示、单层深度学习算法无法充分捕获文本情感特征等问题,提出一种基于改进BERT的双通道神经网络文本情感分析算法。该方法以全词掩码的BERT模型作为词嵌入层,通过融合卷积神经网络与双向门控循环单元网络组成双通道特征提取层,分别从词语级与句子级的层面对文本的情感特征进行提取,其输出根据情感特征重要程度经自注意力网络为局部与全局特征分配以相应的权重分值,以突出特征提取层所捕获的情感特征信息。经过对比实验表明,利用BERT模型得到的动态词向量结合双通道神经网络模型结构能够更加有效的对文本情感倾向做出判断。3)实现了用户评论情感分析算法在互联网营销平台中的应用。首先对互联网营销平台的背景与系统架构进行了概述,其次对平台文本情感分析模块进行了设计与实现,该模块底层依托大数据基础设施平台提供的数据服务能力,利用Python实现用户评论情感分析算法模型的训练及调用,采用微服务架构对情感分析服务接口进行研发,各业务微服务通过远程调用对情感分析接口进行请求,其分析结果利用前端框架Vue.js与中间件ECharts进行可视化研发,最终使得互联网营销平台依靠文本情感分析模块完成对用户评论数据的实时分析。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设工坊 ,原文地址:https://m.bishedaima.com/lunwen/46274.html