面向B2C电商平台的短文本挖掘研究——以京东平台为例
这是一篇关于电子商务,短文本,评论标签,商品问答,词向量的论文, 主要内容为随着电子商务的快速发展,国内出现了众多的电子商务平台,网络购物成了一种人们日常的购物模式。在电子商务的大环境中,平台和商家获得了很多发展机遇,但随着市场的不断扩大,市场竞争的不断加剧,平台和商家会因无法满足消费用户的购买需求,无法及时关注到自身商品存在的问题而影响销售,最终被市场所淘汰。用户则面对网上琳琅满目且质量参差不齐的商品面临选择难的问题。B2C电子商务平台作为一类有代表性的网上购物平台,商家对消费者的模式深受网购用户喜爱。随着消费行为的发生,在B2C电子商务平台中存在有大量且有价值的用户信息,如评论系统中用户标注的评论标签,交互式问答系统中的问答短文本。针对这些有特点且富含消费者行为信息的短文本进行文本挖掘分析是有意义的。本文通过文本挖掘的方法对于电商平台中的短文本信息进行相应的研究,挖掘其中有价值的信息,为电商平台,商家和用户提供情报数据。本文选择国内具有代表性的B2C电商平台京东为例,选择平台中比较有特点的两种短文本信息,用户评论标签和京东商品问答作为挖掘分析对象。在京东平台用户评论标签短文本的挖掘中,提出一种针对标签短文本的外部词向量拓展方法,其中外部词向量通过Word2Vec词向量模型对外部语料训练获得,再对拓展后的标签短文本进行聚类分析,与传统的向量空间模型方法相比,外部词向量拓展的方法解决了其无法对同义标签聚类的问题有更好的聚类效果。此外,还对评论标签进行关联规则挖掘和语义网络分析,寻找出标签间的相互关联性和标签中词语间的相互关联性。在京东商品问答挖掘中首先对问答短文本中的商品特征进行提取,为确保特征提取的准确度,提取过程结合了名词抽取、频繁项提取、同义词合并等方法,并对提取出的商品特征词进行分类及分析,然后将挖掘出的商品特征词作为种子词利用共现关系提取所对应的观点词并进行分析,再通过Word2Vec词向量模型训练问答数据,将商品问答短文本用词向量进行加权表示,最后用优化初始中心的K-Means聚类算法对问答问题短文本向量进行聚类并对聚类结果进行分析。
面向电商平台用户生成内容的多源异构数据融合与表示
这是一篇关于多源异构,用户生成内容,表示学习,融合,短文本的论文, 主要内容为用户生成多源异构数据融合与表示在各个领域引起广泛关注,如电商平台中用户评论与消费行为可为企业和商家针对用户的个性化服务提供重要依据。目前,针对多源文本的融合表示相对简单,没有考虑长短文本间的差异性,表示精度有待提高;此外,在进行异构数据融合时,近年来提出的深度学习可将各结构数据映射到同一共享空间。但是,已有研究较少针对电商平台中的用户生成内容。鉴于此,本文研究面向电商平台用户生成内容的多源异构数据融合与表示策略,主要内容如下:(1)电商平台用户生成文本数据的融合表示:首先,将用户生成多源文本根据数据的长度与特点分为长短文本区分处理,提出基于Doc2vec模型与隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型融合的策略,提取短文本特征;在此基础上,提出基于皮尔逊相似度选择商品评论与描述文本融合对象的方法,确定表示商品文本特征所需最少文本数;最后,将所提算法应用于亚马逊公开数据集多类商品分类问题,仿真结果表明所提算法可有效提高多源文本融合的精度,缓解信息过载。(2)电商平台用户生成多源异构数据的融合表示:在研究内容(1)的基础上,进一步考虑含评价文本和物品图像数据的用户生成内容异构数据的融合表示。首先,利用迁移学习的思想,使用预训练的残差网络(Residual Network,Res Net)获取商品图像数据的特征表达;然后,利用研究内容(1)的研究结果结合图像数据与评价文本的特征,考虑图文互补性,提出离散卷积融合策略,完成多源异构数据的融合;最后,将所提算法应用于亚马逊公开数据的扩展数据集上,实验结果证明了所提融合算法的有效性。(3)基于用户生成多源异构数据融合表示的个性化推荐:将研究内容(1)和(2)应用于实际问题中的个性化推荐中,以进一步说明所提算法的有效性,提出了基于多源异构数据融合表示和RBM评价偏好估计的个性化推荐策略。首先依据多源异构数据特征的融合表示和商品类别属性,构建基于受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)的用户偏好估计模型;然后,进一步利用用户隐式和显式偏好联合学习协同过滤算法,完成用户的个性化推荐;最后,将所提算法应用于亚马逊多个领域的用户推荐问题,结果证明基于多源异构用户生成内容融合表示的物品描述可有效提高推荐的准确率,并为推荐结果提供更多的可解释性。该论文有图18幅,表14个,参考文献93篇。
商品评论细粒度情感分析系统设计与实现
这是一篇关于细粒度情感分析,短文本,深度学习,文本表示,BERT的论文, 主要内容为传统的文本情感分析在一些仅需情感极性判定的领域,如网络舆情分析、股评分析等,已体现出较好的应用价值。然而,随着应用的深入,用户如希望进一步获得评价对象属性所对应的具体情感分析结果,传统的情感分析则不能完全满足需求,为此,细粒度情感分析便应运而生,并得到越来越多的重视。不过,目前在细粒度情感分析的文本表示上,依然存在着许多困难和挑战。比如,商品评论属网络文本,存在文本短、重点信息多、不规范、表达方式复杂等特性,甚至可能存在未登录词,或情感词缺少对象属性等问题。此外,现有电商平台还未实现细粒度情感分析系统的实际应用,如何把算法应用到实际生活,这也是一个具有挑战性的工作。本文针对细粒度情感分析中的这些关键问题,在总结国内外细情感分析理论及其研究成果基础之上,主要研究内容包括以下五个部分:(1)通过引入词频-逆文档频度(Term Frequency-Inverse Document Frequency,TF-IDF)技术对关键词向量进行权重标注,再使用文本卷积网络(Text Convolutional Neural Networks,TextCNN)进行情感分类,从而提高细粒度情感分类的准确性。经过实验证明,相较于传统的TextCNN在细粒度情感分类的精度上有所提高,为解决关键词向量权重问题提供了很好的解决思路。(2)通过在输入时引入联合字词表示加强文本表示,在使用面向方面嵌入的门控卷积网络模型(gate convolutional network with Aspect embedded,GCAE)分类前添加一层额外的长短时间记忆模型(Bi-Long Short Term Memory,BiLSTM)改善其长句信息丢失的问题,从而提高细粒度情感分类的准确性。经过实验证明相较于经典的GCAE模型在细粒度情感分类的精度上有所提高,为改进经典模型提供了很好的解决思路。(3)针对静态词向量在文本表示上的不足,用动态分字预训练模型加强文本表示,使用预训练模型(Bidirectional Encoder Representations from Transformers,BERT)进行微调,以达到文本表达的较好效果,并使用集成学习的分类方法对两种分类器加强情感分类,从而达到较为精准的细粒度情感分析。经过实验证明,该模型对提高细粒度情感分析的精度有着最好的效果和精度。(4)针对商品评论文本的不规范性问题,本文使用基于深度学习的改进模型,使其能自动对新增词汇进行特征学习,不需要额外的人工干预。(5)本文将细粒度情感分析精度效果最好的模型封装成原型系统,描述了原型系统的需求分析,并且实现了细粒度分析结果的可视化,为细粒度情感分析系统的实际应用打下了基础。总之,本文针对商品评论网络文本的固有缺陷,提出了一些技术措施。从改进文本表示和优化分类器的角度,提高了情感分类的精度。此外,将本文提出的情感分析精度效果最好的模型封装成原型系统,从系统设计的角度实现了相关功能,可以为细粒度情感分析系统的实际应用提供参考。
短文本分析系统中管理子系统的设计与实现
这是一篇关于短文本,短信,管理系统,MVC,过滤的论文, 主要内容为随着互联网的不断发展和手机的广泛使用,越来越多的数据以短文本的形式存在,这些短文本数据可能包含大量有价值的信息,也有可能包含大量的虚假信息,所以不管是企业还是用户都急需一个优秀的短文本分析系统来将有用或有害的信息提取出来。然而,目前的技术基本上都是根据关键字来进行分析,这种技术并不能全面地解读数据中的具体含义,得到的结果大多差强人意。此外,分析过滤后的短文本数据也没有统一的管理平台,由此可见,目前的技术很难满足人们的需求,短文本分析系统及其管理子系统的设计与实现迫在眉睫。本文详细介绍了以MVC为基础的SSI框架、Spring Batch批处理框架、JSP技术和Redis数据库等核心技术,并阐明了使用这些技术的原因。然后将用户划分为系统管理员和业务人员两种角色,对系统进行了全面的需求分析。接着设计本系统的软件架构,确定大体框架后,明确了各个功能模块的实体关系并设计出数据库表。进而从顺序图和类图两个方面对系统的各功能模块进行了详细的设计,并介绍了编码实现思路和实现效果图。最后,以用户管理、模板任务管理、模板标签、训练数据提取为测试用例,测试并剖析测试结果。通过测试,发现系统各项功能都能正常且稳定的运行,功能之间的兼容性较好,并且实现了预设的全部功能,符合用户的需求,达到了预期效果。
基于外部信息的短文本主题建模研究
这是一篇关于主题模型,短文本,概念信息,双概念,词特征的论文, 主要内容为主题模型作为一种文本挖掘技术,在常规文本建模上的发展已经较为成熟,被广泛应用于特征提取、主题分析、推荐系统等领域。然而随着社交媒体的发展,短文本正在不断成为互联网中文字表达的主要形式,这为主题模型的研究带来了新的挑战。现有主题模型往往基于文本本身的词共现信息进行建模,没有引入额外先验知识进行补充,同时短文本存在词共现较为稀疏的特性,该特性影响了主题建模的准确性,导致无法提取优质的主题特征。针对此问题,本文从引入外部信息到主题模型中入手,重点解决短文本主题建模文本稀疏性问题以及先验知识匮乏问题。其主要内容包括:(1)词特征二值化。根据词向量的均值将预训练好的词向量转换为数值为0或1的二值化标签,保留词向量中特征突出的部分,舍弃词向量中特征较弱的部分,获取词特征信息。(2)基于Concept Net的Bi-Concept对构建。基于Concept Net语义网络对BTM(Biterm Topic Model)构建biterm的思路进行改进,构建Bi-Concept对集合,获取概念信息并避免引入大量的噪音。(3)双概念主题模型(Bi-Concept Topic Model,BCTM)构建。BCTM结合代表词特征信息的二值化标签,计算出特定主题下词汇受到词特征信息影响的权重,使得主题-词矩阵下每个词汇生成其特有狄利克雷先验。同时基于Bi-Concept对进行采样,补足文本信息并涵盖了概念网络的知识,提升短文本主题模型准确率。就以上研究,本文将词特征信息与概念信息两种外部信息引入到主题建模过程中,补足短文本稀疏的词共现以及先验信息,并将所构建的BCTM在不同的文本单元与基准模型进行了主题建模实验对比。实验结果证明,BCTM在困惑度、主题一致性以及文本分类准确率上的表现皆优于基准模型,证明了引入外部信息到短文本主题建模的有效性。
短文本分析系统中管理子系统的设计与实现
这是一篇关于短文本,短信,管理系统,MVC,过滤的论文, 主要内容为随着互联网的不断发展和手机的广泛使用,越来越多的数据以短文本的形式存在,这些短文本数据可能包含大量有价值的信息,也有可能包含大量的虚假信息,所以不管是企业还是用户都急需一个优秀的短文本分析系统来将有用或有害的信息提取出来。然而,目前的技术基本上都是根据关键字来进行分析,这种技术并不能全面地解读数据中的具体含义,得到的结果大多差强人意。此外,分析过滤后的短文本数据也没有统一的管理平台,由此可见,目前的技术很难满足人们的需求,短文本分析系统及其管理子系统的设计与实现迫在眉睫。本文详细介绍了以MVC为基础的SSI框架、Spring Batch批处理框架、JSP技术和Redis数据库等核心技术,并阐明了使用这些技术的原因。然后将用户划分为系统管理员和业务人员两种角色,对系统进行了全面的需求分析。接着设计本系统的软件架构,确定大体框架后,明确了各个功能模块的实体关系并设计出数据库表。进而从顺序图和类图两个方面对系统的各功能模块进行了详细的设计,并介绍了编码实现思路和实现效果图。最后,以用户管理、模板任务管理、模板标签、训练数据提取为测试用例,测试并剖析测试结果。通过测试,发现系统各项功能都能正常且稳定的运行,功能之间的兼容性较好,并且实现了预设的全部功能,符合用户的需求,达到了预期效果。
基于短文本处理算法优化的文本信息推荐系统的设计与实现
这是一篇关于短文本,特征词,K-means聚类算法,用户兴趣模型,文本推荐系统的论文, 主要内容为"麦圈"作为推荐聚合类资讯产品,以"微博"用户行为数据包括发布、分享、转发等数据为基础,构建用户兴趣模型,并依赖于该模型向用户定向推荐资讯类内容。如何为用户精准的推荐信息成为了平台新的研究方向,因此,用户兴趣模型的构建是推荐系统中最重要的环节,而微博所蕴含的海量文本信息为个性化推荐提供了分析用户兴趣模型的信息数据源。然而由于微博文本数据长度较短,用户的兴趣多样化,系统推荐的效果不太理想,因此,对短文本处理算法的优化是提升系统推荐准确度和稳定性的关键点。本文设计的基于短文本的文本信息推荐系统,首先依据用户的微博行为数据构建用户兴趣模型,其次将待推荐的文本信息进行聚类分析,并与兴趣模型进行相似性计算,最后将结果推荐给用户浏览,同时将用户的评分数据反馈推荐系统,用于用户兴趣模型的更新优化。其中,向量空间模型是文本结构化表示、用户兴趣模型构建以及相似度计算的基础模型。本文的文本推荐系统基于短文本处理算法的优化以及用户兴趣模型的构建实现。首先针对微博短文本数据特点,在短文本预处理阶段,为了提升文本特征词的表征能力,在词项TF-IDF加权计算的基础上提出基于语义相关联的短文本特征词提取算法。然后,在短文本的聚类算法中,本文针对K-means算法对噪声敏感以及对初始中心选取存在依赖性问题,提出了将相似性度量作为初始中心计算的依据思路,并实现了基于相似中心的cK-means短文本聚类算法的设计方案,同时基于短文本算法的优化构建了用户兴趣模型。最后,本文将优化后的用户兴趣模型应用到具体的文本推荐系统中,给出了系统的整体框架,并详细叙述了推荐系统核心模块的实现细节以及系统测试分析。对短文本处理算优化的验证结果表明,本文提出的基于语义相关的文本特征词提取算法以及cK-means文本聚类算法准确度均有所提升,同时基于短文本处理算法优化的用户兴趣模型更适用于对短文本的兴趣聚合。对文本推荐系统的横向测试和纵向测试显示,基于短文本处理算法优化的用户兴趣模型应用到文本推荐系统之后,推荐系统的准确度和稳定性相比之前均有所提升。
基于大规模短文本分类的商品分类管理与检索系统设计与实现
这是一篇关于短文本,分类,大规模,深度学习的论文, 主要内容为当前,人们越来越多地通过互联网购物,电商将自己的商品展示在网络平台上方便用户购买,而商品的种类越来越多,有必要对商品进行分类,以方便用户快速找到所需要的商品。鉴于不断会有大量的新商品出现,人工分类不仅工作量大,处理速度慢,而且还会发生分类不一致的错误。因此,设计并实现一个商品分类管理与检索系统,实现快速准确的商品自动分类和检索,降低人工成本和错误率,具有重要的价值。对商品进行分类的主要依据是商品的文字描述,这个描述通常很短,只包含几十个汉字或数字字母等符号。目前,大多数文本分类模型都是面向长文本的,本文在分析不同模型对短文本分类影响的基础上,根据短文本的特点,提出了一种基于PMI和TF-IDF的改进FastText分类方法。实验结果表明,本文提出的方法对短文本的分类效果有极大的提升。针对现有电商的商品分类和检索需求,设计并实现一个商品分类管理与检索系统。该系统能够进行商品自动分类,并根据用户的搜索信息,在目标商品中检索出用户满意度较高的商品进行推荐。系统测试表明,该系统能较好的满足设定的需求。
面向短文本情感分析的个性化推荐方法研究
这是一篇关于个性化推荐,短文本,情感分析,朴素贝叶斯,余弦相似度的论文, 主要内容为随着网络技术的迅猛发展,数据量爆炸式的增长给人们信息的筛选带来了问题。因此一些研究者提出了使用推荐系统来更加有效的提取具有价值的信息。推荐系统的目的是帮助人们从大量的信息中挖掘出满足自己潜在的需求,同时实现对冗余信息量的剔除。早期的推荐系统起到了一定的效果,然而这种推荐方式并不具有针对性,对于需求标准高的人来说,这些结果很难符合他们的意愿。因此随着用户需求标准的提高,需要一个更加精确的针对用户个性化的推荐系统。在电子商务领域,推荐系统一般通过挖掘并分析用户的显式行为和隐式行为来完成推荐。显式行为一般包括用户对商品的打分等直接评价,而隐式行为则主要包括浏览信息、收藏记录、评论、上下文信息等间接评价。由于评论信息以短文本的形式出现,有人分析评论短文本提取特征词来构建评价标签,便于用户形成对商品的直观感受。然而对于评论短文本中潜在的情感,并没有有效利用。因此本文提出了一种面向短文本情感分析的个性化推荐方法,该方法首先根据几种常见的中文词典采用Trie树并利用隐式马尔科夫分词模型挖掘每个分数段中用户对于商品的评论短文本中的特征情感词,获得文本中的情感特征词汇,统计每类分数中的主要相关特征词及其权值,构建通用特征情感词库和满足用户个性化的情感特征词库。然后使用基于余弦相似度的朴素贝叶斯分类方法,结合用户个性化情感词库和通用情感词库中根据特征词分布情况赋予相应的分数。最后构建用户的信息组建用户-个性化情感项目评分矩阵,给出推荐。最后,本文利用爬虫技术抓取国内某电商网站上用户对服装类商品的评论信息作为实验数据集,对本文提出的面向短文本情感分析的个性化推荐方法和SVD协同推荐方法以及基于项目的推荐方法进行对比实验,结果显示本文提出的方法可以有效的提升推荐效果。
商品评论细粒度情感分析系统设计与实现
这是一篇关于细粒度情感分析,短文本,深度学习,文本表示,BERT的论文, 主要内容为传统的文本情感分析在一些仅需情感极性判定的领域,如网络舆情分析、股评分析等,已体现出较好的应用价值。然而,随着应用的深入,用户如希望进一步获得评价对象属性所对应的具体情感分析结果,传统的情感分析则不能完全满足需求,为此,细粒度情感分析便应运而生,并得到越来越多的重视。不过,目前在细粒度情感分析的文本表示上,依然存在着许多困难和挑战。比如,商品评论属网络文本,存在文本短、重点信息多、不规范、表达方式复杂等特性,甚至可能存在未登录词,或情感词缺少对象属性等问题。此外,现有电商平台还未实现细粒度情感分析系统的实际应用,如何把算法应用到实际生活,这也是一个具有挑战性的工作。本文针对细粒度情感分析中的这些关键问题,在总结国内外细情感分析理论及其研究成果基础之上,主要研究内容包括以下五个部分:(1)通过引入词频-逆文档频度(Term Frequency-Inverse Document Frequency,TF-IDF)技术对关键词向量进行权重标注,再使用文本卷积网络(Text Convolutional Neural Networks,TextCNN)进行情感分类,从而提高细粒度情感分类的准确性。经过实验证明,相较于传统的TextCNN在细粒度情感分类的精度上有所提高,为解决关键词向量权重问题提供了很好的解决思路。(2)通过在输入时引入联合字词表示加强文本表示,在使用面向方面嵌入的门控卷积网络模型(gate convolutional network with Aspect embedded,GCAE)分类前添加一层额外的长短时间记忆模型(Bi-Long Short Term Memory,BiLSTM)改善其长句信息丢失的问题,从而提高细粒度情感分类的准确性。经过实验证明相较于经典的GCAE模型在细粒度情感分类的精度上有所提高,为改进经典模型提供了很好的解决思路。(3)针对静态词向量在文本表示上的不足,用动态分字预训练模型加强文本表示,使用预训练模型(Bidirectional Encoder Representations from Transformers,BERT)进行微调,以达到文本表达的较好效果,并使用集成学习的分类方法对两种分类器加强情感分类,从而达到较为精准的细粒度情感分析。经过实验证明,该模型对提高细粒度情感分析的精度有着最好的效果和精度。(4)针对商品评论文本的不规范性问题,本文使用基于深度学习的改进模型,使其能自动对新增词汇进行特征学习,不需要额外的人工干预。(5)本文将细粒度情感分析精度效果最好的模型封装成原型系统,描述了原型系统的需求分析,并且实现了细粒度分析结果的可视化,为细粒度情感分析系统的实际应用打下了基础。总之,本文针对商品评论网络文本的固有缺陷,提出了一些技术措施。从改进文本表示和优化分类器的角度,提高了情感分类的精度。此外,将本文提出的情感分析精度效果最好的模型封装成原型系统,从系统设计的角度实现了相关功能,可以为细粒度情感分析系统的实际应用提供参考。
面向电商平台用户生成内容的多源异构数据融合与表示
这是一篇关于多源异构,用户生成内容,表示学习,融合,短文本的论文, 主要内容为用户生成多源异构数据融合与表示在各个领域引起广泛关注,如电商平台中用户评论与消费行为可为企业和商家针对用户的个性化服务提供重要依据。目前,针对多源文本的融合表示相对简单,没有考虑长短文本间的差异性,表示精度有待提高;此外,在进行异构数据融合时,近年来提出的深度学习可将各结构数据映射到同一共享空间。但是,已有研究较少针对电商平台中的用户生成内容。鉴于此,本文研究面向电商平台用户生成内容的多源异构数据融合与表示策略,主要内容如下:(1)电商平台用户生成文本数据的融合表示:首先,将用户生成多源文本根据数据的长度与特点分为长短文本区分处理,提出基于Doc2vec模型与隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型融合的策略,提取短文本特征;在此基础上,提出基于皮尔逊相似度选择商品评论与描述文本融合对象的方法,确定表示商品文本特征所需最少文本数;最后,将所提算法应用于亚马逊公开数据集多类商品分类问题,仿真结果表明所提算法可有效提高多源文本融合的精度,缓解信息过载。(2)电商平台用户生成多源异构数据的融合表示:在研究内容(1)的基础上,进一步考虑含评价文本和物品图像数据的用户生成内容异构数据的融合表示。首先,利用迁移学习的思想,使用预训练的残差网络(Residual Network,Res Net)获取商品图像数据的特征表达;然后,利用研究内容(1)的研究结果结合图像数据与评价文本的特征,考虑图文互补性,提出离散卷积融合策略,完成多源异构数据的融合;最后,将所提算法应用于亚马逊公开数据的扩展数据集上,实验结果证明了所提融合算法的有效性。(3)基于用户生成多源异构数据融合表示的个性化推荐:将研究内容(1)和(2)应用于实际问题中的个性化推荐中,以进一步说明所提算法的有效性,提出了基于多源异构数据融合表示和RBM评价偏好估计的个性化推荐策略。首先依据多源异构数据特征的融合表示和商品类别属性,构建基于受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)的用户偏好估计模型;然后,进一步利用用户隐式和显式偏好联合学习协同过滤算法,完成用户的个性化推荐;最后,将所提算法应用于亚马逊多个领域的用户推荐问题,结果证明基于多源异构用户生成内容融合表示的物品描述可有效提高推荐的准确率,并为推荐结果提供更多的可解释性。该论文有图18幅,表14个,参考文献93篇。
面向短文本情感分析的个性化推荐方法研究
这是一篇关于个性化推荐,短文本,情感分析,朴素贝叶斯,余弦相似度的论文, 主要内容为随着网络技术的迅猛发展,数据量爆炸式的增长给人们信息的筛选带来了问题。因此一些研究者提出了使用推荐系统来更加有效的提取具有价值的信息。推荐系统的目的是帮助人们从大量的信息中挖掘出满足自己潜在的需求,同时实现对冗余信息量的剔除。早期的推荐系统起到了一定的效果,然而这种推荐方式并不具有针对性,对于需求标准高的人来说,这些结果很难符合他们的意愿。因此随着用户需求标准的提高,需要一个更加精确的针对用户个性化的推荐系统。在电子商务领域,推荐系统一般通过挖掘并分析用户的显式行为和隐式行为来完成推荐。显式行为一般包括用户对商品的打分等直接评价,而隐式行为则主要包括浏览信息、收藏记录、评论、上下文信息等间接评价。由于评论信息以短文本的形式出现,有人分析评论短文本提取特征词来构建评价标签,便于用户形成对商品的直观感受。然而对于评论短文本中潜在的情感,并没有有效利用。因此本文提出了一种面向短文本情感分析的个性化推荐方法,该方法首先根据几种常见的中文词典采用Trie树并利用隐式马尔科夫分词模型挖掘每个分数段中用户对于商品的评论短文本中的特征情感词,获得文本中的情感特征词汇,统计每类分数中的主要相关特征词及其权值,构建通用特征情感词库和满足用户个性化的情感特征词库。然后使用基于余弦相似度的朴素贝叶斯分类方法,结合用户个性化情感词库和通用情感词库中根据特征词分布情况赋予相应的分数。最后构建用户的信息组建用户-个性化情感项目评分矩阵,给出推荐。最后,本文利用爬虫技术抓取国内某电商网站上用户对服装类商品的评论信息作为实验数据集,对本文提出的面向短文本情感分析的个性化推荐方法和SVD协同推荐方法以及基于项目的推荐方法进行对比实验,结果显示本文提出的方法可以有效的提升推荐效果。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设客栈 ,原文地址:https://m.bishedaima.com/lunwen/52775.html