对网购评论数据的文本挖掘——以某款式冰箱的评论为例
这是一篇关于评论数据,数据预处理,情感分析,主题分析的论文, 主要内容为随着技术的发展和手机的普及,网络购物行为已经渗透到人们生活的方方面面,进行过网络购物的人数越来越多。在这个过程中,会不可避免地产生大量的商品评论数据。通过人工阅读的方式从海量的评论数据中发现有效信息是一件非常困难的事情,因此论文通过文本挖掘技术来解决这一问题。首先,为了利用文本挖掘技术获取评论数据中的有效信息,论文利用Python软件编写爬虫程序,分别从京东商城、天猫商城和苏宁易购获取了某款式冰箱的评论数据。为了更好地对评论数据进行情感分类和主题分析,论文对获取的评论数据进行了预处理,获得了规范化的评论数据。对规范化评论文本进行分词操作,并以词云图的形式进行可视化展示。其次,当获得规范化的评论文本后,分别使用基于情感词典的方法和基于优化的机器学习方法对评论数据进行情感分类,然后使用准确率指标对两种情感分类方法的效果进行比较。通过对比发现,优化的机器学习方法的情感分类准确率更高,效果更好。因此,选择优化的机器学习方法的情感分类结果,分别对三家电商平台的正负面评论构建语义网络,重现评论分词间的关系,对用户评论语句中的观点进行直观展示。最后,利用主题分析技术,分别对三家电商平台的正负面评论进行建模分析,从评论数据中发现潜在主题,对评论数据的主题进行总结,并结合词频和语义网络,挖掘出评论语句中包含的商品特点和电商平台特点。一方面可以辅助用户进行购买;另一方面可以帮助商品生产企业和电商平台了解用户诉求和自身优缺点,以便进行针对性改进。
基于评论和评分数据的推荐系统研究
这是一篇关于推荐系统,数据稀疏性,评论数据,情感特征,用户相似度的论文, 主要内容为信息技术的飞速发展,让人类真正迈入了大数据时代,这个时代在给我们提供巨大便利的同时,也带来了“信息过载”的问题。为了解决这一难题,研究人员提出诸多方案,其中,推荐系统是解决这一问题的重要方法。它可以将不同的用户和项目联系起来,不仅可以将项目高效推荐给用户,还可以使用户轻松发现自己感兴趣的物品。但是在推荐系统中,历史评分数据的缺失造成的数据稀疏性一直制约着推荐系统的发展。随着电子商务技术发展成熟,平台和用户的交互越来越多,用户开始对物品或服务等发表评论,而这些评论比评分更加能体现用户的个性化需求以及用户对物品的偏好。因此,本文提出了基于评论和评分数据的推荐系统研究方法。具体来说,可以分为以下两个工作:(1)提出了基于评论数据的社交矩阵分解模型ReTOMF,改善评分数据不足带来的稀疏性问题。缺少历史评分数据会造成冷启动问题,导致推荐质量不佳。本文使用丰富的评论数据,使用主题模型对文档建模,挖掘用户之间和项目之间的隐式邻居关系,并集成到社交推荐框架中。过去的推荐系统中,项目之间保持独立,但项目之间也应有相应联系,所以本文对项目之间也建立社交关系。当用户在购买不熟悉的物品时会选择查看评论等信息用来判断物品的价值,所以在模型中加入项目信誉,提高推荐的精确度。(2)提出了基于评论数据情感特征的推荐模型ReTFGM,用来挖掘用户对项目的情感特征。首先,利用主题模型计算每个文档的主题分布,并用评分数据建立用户评论态度,因为评分数据可以看做是评论文本所具有的情感的数值化体现,利用用户评论态度改进主题分布,形成新的用户偏好,用以计算用户之间的相似度,并称之为信任度。其次,为了弥补共同评论数据不足导致的信任度低的问题,提出了用户声誉的概念,利用用户和其朋友的相似度以及用户的评分偏差计算用户声誉,并作为信任值计算的一部分,通过信任值的大小为目标用户找到邻居集并集成到基于信任传播的矩阵分解技术中。最后,为了更好地改进模型提升推荐系统的准确性,在模型中加入了用户和项目的个性化特征即用户的评分偏好和项目信誉。
基于用户评论数据的离线推荐算法研究与实现
这是一篇关于离线推荐,评论数据,协同过滤,排序算法,注意力机制的论文, 主要内容为互联网与信息技术的高速发展,使得现在社会已进入信息过载的时代,人们在进行信息获取时越来越困难,需要付出的代价越来越高。为了解决数字信息过载的问题,推荐系统应运而生。推荐系统能够根据用户喜好主动筛选出用户可能感兴趣的信息并推荐给用户,降低了用户获取信息的难度,且能够有效提高企业的效益,因此对推荐系统的研究具有重要意义。为了能够实现推荐效果的提升,需要对系统中的推荐算法进行优化,特别是能够奠定推荐效果的离线推荐。本文拟基于用户评论数据,探讨离线推荐算法的优化问题。本文的主要工作内容如下:(1)针对离线推荐中召回阶段,提出一种基于内容感知的协同过滤召回模型。该模型采用Autoencoder作为基本框架,通过进行用户评论数据中评分数据矩阵的重建实现了物品召回候选集的筛选。模型在进行评分重建时,首先将物品评分经过Encoder获取物品的抽象表示,接着与用户评论文本描述的序列和非序列信息进行融合,再将其与相邻物品集的特征表示通过Decoder获取重建的评分数据,最后利用Amazon公开数据集与酒店数据集进行对比实验,验证了该模型的有效性。(2)针对离线推荐中排序阶段,提出一种基于Deep FM优化的排序模型。该模型将对物品排序问题转化为CTR(Click-Through-Rate)预测问题。其将能够同时进行高阶与低阶特征组合的Deep FM作为基线模型,并引入多头注意力机制和用户喜好特征表示,以有效地表示用户和体现用户兴趣的多样性。在Amazon和Movie Lens公开数据集上进行了对比实验,验证了该排序模型的有效性。(3)实现了基于酒店数据的推荐服务。将所提出模型进行整合,再通过使用Flask框架实现了模型的RESTful API服务,并以酒店数据集作为系统数据给出了酒店推荐服务的可视化展示。
基于电商平台的大数据技术设计与研究
这是一篇关于数据挖掘,评论数据,Hadoop,聚类分析的论文, 主要内容为随着网络技术的进步带动网络接入设备的蓬勃发展,网页技术越来越成熟让网络购物的体验越来越好,从而带动着电子商务行业的飞跃式发展。网络购物掀起热潮,随着电商平台交易量的急速增长,积累了大量的交易数据和用户的评论数据,这些用户的评论数据从中可以挖掘到很多十分有价值的信息,如产品的缺陷以及用户的切实需求。对此,本文对电商平台中的评论数据大数据获取及应用来研究,提取产品的评论中的评价观点和意见,方便整合后理出重要脉络,梳理用户对该产品的真实感受。本文以大数据时代的评论数据的获取技术和聚类分析为核心进行了研究,将Nutch网络爬虫与Hadoop分布式结合,实现通过分布式来爬取评价数据,解决单机运行执行太慢的问题;得到的数据经过一些过滤提取特征词之后,再以TF-IDF计算方法计算特征词的权重,以便于构建文本向量化表示,最终达成基于VSM的方法计算语句间的相似度,然后结合MapReduce框架实现Canopy算法和K-means算法的分布式运算,大大加快聚类的效率和准确率。最后,以某品牌的净水器的评论数据为例,将该商品的评论数据从电商平台爬取出来并且进行聚类分析,整合统计后得到该净水器的优点和不足,并对这些评价观点的应用做了简要分析。
融合评分和评论的推荐系统研究
这是一篇关于推荐系统,ALS算法,Spark平台,LDA算法,评论数据的论文, 主要内容为目前,推荐系统面临着可扩展性差、数据稀疏性、冷启动、低效率、忽略评论信息等问题。本文针对这些问题提出融合评分和评论的推荐系统,加入语义分析,优化算法,并设计出相应的管理系统。主要工作如下:第一,本文在ALS推荐算法基础上提出一种新的评分模型NALS-WR,并借助Linux集群上的Spark实现NALS-WR算法的并行化,由于其分布式计算框架和云计算环境,NALS-WR具有很强的可扩展性,解决传统的矩阵分解算法的资源分配的瓶颈,提升处理海量数据的速度。在真实的MovieLens数据集上进行实验,结果表明,与传统的最小交叉二乘法ALS推荐算法和奇异值分解(SVD)等推荐算法相比,NALS-WR推荐的准确率和运行效率提高了,数据规模越大,NALS-WR的效率越高。第二,提出融合评分和评论的模型FRRM(Fusion of rating and review model),该模型采用LDA主题模型挖掘潜在主题信息,构建文档—主题分布,进而基于评分数据与文档—主题分布共同构建一种新的预测评分的策略。利用评论文本增强评分预测是本文的另一大亮点,其克服了传统方法丢弃评论文本的做法。在真实的Amazon数据集上进行实验,结果表明,融合评论与评分的模型FRRM克服了原始仅利用评分数据进行评分预测的不足,在评分数据稀疏度高的情况下也可以比同类模型HFT更准确的预测物品评分。第三,设计推荐系统的流程管理平台。利用开源项目Spark-Jobserver管理推荐系统的作业和程序等。利用大数据基础平台Hadoop提供的分布式文件系统存储海量数据。利用Spark分布式计算框架进行数据的分析和挖掘。实现数据分析的抽取,转换和加载过程,实现推荐程序的管理,实现推荐系统的执行以及推荐作业的可视化,并提供可扩展的数据分析程序和流程管理接口。然后部署到云端,使在手机、平板等任何联网的设备上都可实现流程管理,达到对推荐系统的控制更加灵活的目的。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码项目助手 ,原文地址:https://m.bishedaima.com/lunwen/55839.html