基于电商平台的用户推荐算法研究
这是一篇关于推荐算法,标签,矩阵分解,TF-IDF算法,相似度计算的论文, 主要内容为随着电子商务的不断发展,网购用户规模日益增长,越来越多的学者投入到对电商平台的推荐算法研究。虽然取得了一定的成果,但仍有一些遗留问题亟需解决,如数据稀疏性、冷启动、推荐精度低等。本文首先阐述了本课题的研究意义和推荐系统的国内外研究现状,并对常用的推荐算法的理论基础、算法流程进行了详细的阐述,并分析其优缺点,总结目前技术存在的缺陷,同时还阐述了推荐算法的常用评测指标。为下文中改进算法提供理论基础。针对传统协同过滤推荐算法冷启动问题,本文提出一种基于标签权值的改进推荐算法。首先建立用户-商品-标签矩阵,对标签进行量化,构建新的用户喜好模型,引入标签权重的概念,引入词频-逆文档频率(TF-IDF)算法计算不同用户的标签权重,根据标签权重建立新的相似度计算方法。对相似度计算公式里的调节因子和用户近邻集合k的不同取值进行实验分析,最终得到推荐结果最精确时的最佳取值;并且将本文提出的算法与其他算法实验对比,根据实验结果得出本章提出的算法能得到更好的近邻集合,从而使得推荐结果更准确,并一定程度上缓解了冷启动问题。针对用户评分矩阵中的矩阵分解算法进行研究,本文提出一种基于社交好友关系的奇异值分解模型。将Funk-SVD(Singular Value Decomposition)算法与用户的社交信息相结合,引入好友的喜好信息结合用户自身的喜好信息优化Funk-SVD模型,用随机梯度下降法分解矩阵,最后进行仿真实验。实验结果表明,本文提出的一种社交好友关系的奇异值分解模型一方面能够在一定程度上改善数据稀疏性问题,同时相比传统的SVD算法推荐的精度有所提高。最后,本文融合提出的两种推荐算法构建了一个电商平台的个性化推荐系统。根据系统的功能需求进行了主要功能模块的详细设计,随后采用模块化设计方法,分别介绍了推荐系统各个功能模块的详细功能和实现。该推荐系统证明了本文提出两种推荐算法的实用性。
基于机器学习模型的论文自动分类模型研究
这是一篇关于机器学习,知识图谱,自动分类,TF-IDF算法的论文, 主要内容为随着数字图书馆的发展,每年发表的论文数目也越来越大,为了方便大家查阅学习,论文的分类管理成为了亟待解决的问题。传统的人工分类不仅耗费时间,而且会由于分类工作者的主观因素导致分类结果出现偏差。因此寻找一个合适的机器学习模型来实现论文的自动分类成为了解决这一问题的最佳方法。本文主要通过分析容易被错判的论文和被正确分类的论文之间的差别,寻找优化模型的方法,以期可以得到一个理想的分类模型和论文分类管理方案。本文从中国知网上按照论文被索引次数的大小选取7000篇硕士论文作为样本数据。通过Python中的分词包对论文进行分词,并以TF-IDF算法计算每个特征词的权重。随机森林算法、支持向量机算法和AdaBoost算法是文本挖掘领域应用最广泛的三个模型,本文通过交叉验证的方法,并以分类的准确率和模型训练时间为评价指标从这三个模型中选择出最适合的模型。在进行初步预测后,发现被误判的论文的题名、关键字、摘要中包含的特征词的均较少,导致变量不显著而被错分到比较接近的类别中去了。本文通过构建知识图谱模型,并引用与论文关系最接近的论文中的特征词补充到论文中去。再次对优化后的模型进行预测,预测的正确率明显提升,但仍不能满足实际的需求。再次对分类的结果进行分析,发现数学、物理、地球物理三类论文被相互错分的概率比较大,金融、会计、保险、投资四类论文被相互错分的概率比较大。本文引用之前的分类方法先将论文分成理学类和财经类两大类,再分别对大类进行细分。模型分类的正确率最终达到90%以上。最终得到一个理想论文自动分类模型。研究结果表明,论文书写的不规范,会导致论文中包含的特征词差别较大,从而会影响论文的分类效果;引用同一指导老师的论文中的特征词填补论文中特征词的方法是行之有效的;构建知识图谱模型有利于论文的分类管理。本文通过研究结论提出有利于论文自动分类模型优化和数字图书馆中论文的分类管理的相关建议,这不仅有利于论文自动分类的模型的研究,对于数字图书馆的分类管理也有较强的现实意义。
基于电商平台的用户推荐算法研究
这是一篇关于推荐算法,标签,矩阵分解,TF-IDF算法,相似度计算的论文, 主要内容为随着电子商务的不断发展,网购用户规模日益增长,越来越多的学者投入到对电商平台的推荐算法研究。虽然取得了一定的成果,但仍有一些遗留问题亟需解决,如数据稀疏性、冷启动、推荐精度低等。本文首先阐述了本课题的研究意义和推荐系统的国内外研究现状,并对常用的推荐算法的理论基础、算法流程进行了详细的阐述,并分析其优缺点,总结目前技术存在的缺陷,同时还阐述了推荐算法的常用评测指标。为下文中改进算法提供理论基础。针对传统协同过滤推荐算法冷启动问题,本文提出一种基于标签权值的改进推荐算法。首先建立用户-商品-标签矩阵,对标签进行量化,构建新的用户喜好模型,引入标签权重的概念,引入词频-逆文档频率(TF-IDF)算法计算不同用户的标签权重,根据标签权重建立新的相似度计算方法。对相似度计算公式里的调节因子和用户近邻集合k的不同取值进行实验分析,最终得到推荐结果最精确时的最佳取值;并且将本文提出的算法与其他算法实验对比,根据实验结果得出本章提出的算法能得到更好的近邻集合,从而使得推荐结果更准确,并一定程度上缓解了冷启动问题。针对用户评分矩阵中的矩阵分解算法进行研究,本文提出一种基于社交好友关系的奇异值分解模型。将Funk-SVD(Singular Value Decomposition)算法与用户的社交信息相结合,引入好友的喜好信息结合用户自身的喜好信息优化Funk-SVD模型,用随机梯度下降法分解矩阵,最后进行仿真实验。实验结果表明,本文提出的一种社交好友关系的奇异值分解模型一方面能够在一定程度上改善数据稀疏性问题,同时相比传统的SVD算法推荐的精度有所提高。最后,本文融合提出的两种推荐算法构建了一个电商平台的个性化推荐系统。根据系统的功能需求进行了主要功能模块的详细设计,随后采用模块化设计方法,分别介绍了推荐系统各个功能模块的详细功能和实现。该推荐系统证明了本文提出两种推荐算法的实用性。
基于混合推荐算法的智能分诊系统研究与设计
这是一篇关于智能分诊,TF-IDF算法,K-means聚类,ALS矩阵分解,混合推荐的论文, 主要内容为近年来,随着收入的提高,人们越来越重视身体健康。以往通常是在患有大病时才愿意前往医院就诊,但现在只要身体出现一些不适症状就会前往医院咨询就诊,这也加重了线下大医院的接诊压力。由于患者本身缺乏完善的医疗知识,自主挂号出错率很高,为此医院都设有人工分诊台,但人工分诊台在面对大流量患者时很难快速准确地对患者进行科室分诊以及医生预约,长时间等待和分诊错误导致患者就诊体验严重下降。为了减缓线下人工分诊台的压力,逐渐开设了线上挂号和线上问诊的功能。但对于医院而言,人工线上咨询更多的是把线下工作转移到了线上,虽避免了线下医院拥挤等待的问题,却没有从根本上解决人工咨询力量有限的问题。而且线上医疗信息数据庞杂且呈爆发式增长,反而加大了患者自主挂号的难度,因为患者很难在海量的信息中快速有效地找到对自己最有帮助的信息。因此需要一个能够高效处理和分析大量医疗信息的医疗推荐系统。面对海量的医疗信息,传统的医疗推荐系统存在计算复杂度高,推荐精度低,并且还普遍没有解决冷启动和数据稀疏性问题。本文针对传统人工分诊和自助挂号效率低,线上挂号问诊信息过载,患者难以快速准确获取有用信息的问题,提出了一种基于混合推荐算法的智能分诊推荐系统,来快速准确地对患者进行科室分诊和医师推荐,提升患者就诊体验。此智能分诊推荐系统主要分为三个部分:第一,对于无病史记录的新患者而言,推荐科室分诊存在冷启动问题。本文为解决此问题,首先是在从医疗预约平台实时数据仓库中获得了患者主诉症状分词的前提下,使用了TF-IDF技术量化患者主诉信息中的每个症状分词代表其病情的程度,进而构建患者的症状分词向量空间模型(VSM)用以表示患者病情。然后由患者症状模型并结合实际评分数据的特点,提出了一种基于评分加权的方法对TF-IDF算法改进,来对科室的症状贡献度向量空间模型进行构建,最后计算出患者和各科室症状模型的修正后的余弦相似度,相似度最大的科室即为科室分诊模型预测的结果。并通过多组对照实验,本文方法相比其他四种常用算法在精确率方面平均提升了8.12%,召回率提升了6.93%。第二,是在科室分诊的基础上进行医生推荐方法的设计。针对在大数据环境下传统单一推荐算法的推荐系统会存在计算时间复杂度高,数据稀疏,导致推荐效果差的问题,本文采用基于改进的聚类算法,矩阵分解和用户相似度协同过滤相结合的混合推荐算法。即在科室分诊结果基础上本文提出了一种基于信任关系改进的K-means算法提前对各科室内的历史患者症状向量进行聚类,按目标患者所属聚类簇查找目标患者近邻的这种方法,缩小了实时计算的范围,提升了实时推荐速度。历史患者集合按科室聚类之后再使用ALS的矩阵分解技术对各科室各聚类簇中稀疏的患者医生-评分矩阵进行预测填充成稠密的矩阵,然后使用基于用户相似度的协同过滤进行目标患者-医生的评分预测,最终为目标患者推荐预测评分高的医生。经过实验验证,该方法相比传统的推荐算法,准确度有明显提升。第三,对于K-means聚类算法和ALS矩阵分解算法在处理海量数据时单机环境下所面临的处理速度慢、计算资源多等问题,本文借助Spark在大数据环境下使用内存并行运算的优势,设计了一个基于混合推荐算法的智能分诊系统,并描述了该系统的架构,系统数据的流程,平台的运行环境搭建以及部分主要功能。
基于Hadoop面向社交网络的好友推荐系统的研究与应用
这是一篇关于Hadoop,MapReduce,好友推荐,TF-IDF算法,特征词权重,特征词分布的论文, 主要内容为在进入到2000年以来,互联网技术迅速发展,早已深入到我们的日常生活中,像一些购物网站、交友网站、视频网站每天都会有大量数据产生,人们面临着一个巨大的问题就是信息过载,搜索引擎和推荐系统都可以很好的解决信息过载的问题。与搜索引擎不同的是,推荐系统不需要用户本身主动去手动查询,当用户本身不知道自己需要什么的时候,推荐系统可以根据海量数据进行分析,挖掘出用户的兴趣爱好,发现有价值的内容。在我国最著名的社交网站新浪微博中有着很多用户,而这些用户每天都在自己的微博里发表各种各样的评论或者心情、内容等等,我们可以从这些微博内容里获取用户相关的兴趣爱好,提供个性化好友推荐,在此基础上,本文提出了基于Map Reduce编程模型的分布式并行化算法,设计和实现了一个基于Hadoop的好友推荐系统。主要工作内容如下:1.重点研究了基于内容的推荐算法在好友推荐系统中的应用,主要研究了TF-IDF算法,并提出了TF-IDF算法的不足,在特征词的分布方面进行改进,最后得到改进后的TF-DFI-DFO算法,并对TF-DFI-DFO算法和原始TF-IDF算法进行相关实验,对改进后的TF-DFI-DFO算法进行评估。2.对好友推荐系统的设计和实现,分别对数据采集、数据处理和推荐决策模块进行详细的分析,重点在推荐决策模块里,对TF-DFI-DFO算法进行Map Reduce分布式实现进行分析。3.在Map Reduce模型下对TF-DFI-DFO算法进行分布式实现,然后对得到的结果建立空间向量模型,计算文本之间的相似度,最终得到推荐结果。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕业设计客栈 ,原文地址:https://m.bishedaima.com/lunwen/46436.html