融合多元关系的推荐系统
这是一篇关于推荐系统,矩阵分解,复杂网络,交替最小二乘,Back-fitting的论文, 主要内容为现实世界中存在各种各样的复杂系统,通常我们用复杂网络来描述它们的结构。在多子网复杂网络模型中,子网之间存在一定关系,且每个子网有许多特别的拓扑性质,这些关系和性质决定了复杂系统的功能。推荐系统是从海量信息中提取个性化信息的有效手段。本文针对多子网复杂网络的一种,社交网络,进行推荐算法的改进。通过对预测算法的改善和网络结构的挖掘,更精确的对用户和商品之间的关系进行预测。推荐系统是现代社会处理数据和信息的重要方法,基于矩阵分解的推荐算法可以有效的提高推荐系统性能,但是它会受数据稀疏和冷启动问题的困扰。将多元关系融入到矩阵分解模型中,可以增加信息量,在一定程度上解决数据稀疏和冷启动的问题。基于此,本文从组间效应和多关系网络两个角度,将群组信息和多关系网络信息融入推荐算法,提高了推荐系统的性能。我们将群组信息加入矩阵分解模型中,并将多关系网络信息加入损失函数中,提出了一种融合多元关系的基于矩阵分解的推荐算法。为更快速准确地对评分矩阵进行分解,选择嵌入Back-fitting的交替最小二乘算法求解隐特征,利用最小二乘法估计辅助网络和目标网络之间的回归关系。本文利用YouTube社交网络和Digg数据集进行算法性能的评价,在分析数据的拓扑结构的基础上,选择利用用户友邻分位数进行YouTube数据集的群组划分,Digg数据集上则选择利用历史投票记录和友邻分位数进行群组划分。同时基于mv独立性检验对负例进行采样,解决这两个社交网络只有隐式反馈数据的问题。在YouTube数据集上与GSSVD、基于salton指标的推荐算法进行推荐性能的比较;在Digg数据集上与GSSVD、基于NBI的推荐算法进行比较。实验表明,在top-K的标准下,本文提出的方法相较于其他基线算法,准确率、召回率和F1都更高,有良好的推荐效果。
基于流式计算的个性化推荐系统的研究与实现
这是一篇关于流式计算,推荐系统,实时性,冷启动,矩阵分解,交替最小二乘的论文, 主要内容为目前,推荐系统无论是在电子商务还是在社交网络都占据着举足轻重的位置。传统的个性化推荐系统虽然能为用户提供准确的推荐服务,但面对不断变化的用户需求还存一些缺陷。由于传统系统定期批量计算数据,使得系统的计算结果无法实时反馈给用户,推荐的数据不能实时更新,使得推荐有滞迟,这即是推荐系统中的实时性问题。此外,在网站的初始阶段,由于用户-物品评分数据的缺乏,导致系统无法进行有效的推荐,这即是推荐算法中的冷启动问题。针对上述问题,本文设计与实现了一个基于流式计算的个性化推荐系统,即将解决冷启动问题的改进的推荐算法应用到推荐系统中,并根据实时的数据流更新推荐结果,本文主要包括以下研究内容:(1)针对推荐算法的冷启动问题,提出了一种基于相似度加权KNN的特征映射算法(Feature Mapping based on Similarity Weighted KNN,FM-SWK)。该算法首先运用相关相似度作为KNN算法的相似性度量方式,求得新用户或新物品的k个最近邻,然后结合用户或物品的属性向量来建立新用户或新物品和已有评分的用户或物品之间的映射关系,最后利用k个最近邻用户或物品的特征信息通过相似度加权的方式来估算新用户或新物品的特征值。其次,将FM-SWK算法和基于ALS-WR(Alternating Least Squares with Wighted Lmabda Regularization,加权正则化交替最小二乘法)的矩阵分解算法相结合,提出基于FM-SWK-ALS(FM-SWK and ALS-WR)的混合推荐算法,该算法利用FM-SWK算法求得的新用户和新物品的特征值,通过基于ALS-WR的矩阵分解模型对新用户或新物品进行推荐。同时,针对基于FM-SWK-ALS的混合推荐算法时间复杂度高和无关的用户和物品特征向量也被计算的问题,从用户和物品两个方面,提出适用于实时数据流的改进方案,该方案增量计算新用户或新物品的特征向量,规避不必要用户或物品特征向量的求解,然后将其应用到上述的混合推荐算法中。我们在搭建的Spark集群上使用公开的Movie Lens数据集对上述提出的混合推荐算法和其改进方案进行分析,将基于ALS-WR的矩阵分解算法和使用平均值填充新用户和新物品缺失评分值的AVG-ALS(ALS-WR based on Average)作为对比算法,从用户和物品两方面分析得出,基于FM-SWK-ALS的混合推荐算法的MAE(Mean Absolute Deviation)和RMSE(Root Mean Square Error)的值明显优于两种对比算法,其改进方案随着数据量的不断增加,迭代计算时间变化缓慢,满足系统计算时间需求。实验结果表明,基于FM-SWK-ALS的混合推荐算法可以在一定程度上有效地解决因由于用户-物品评分数据的缺乏无法进行有效推荐的问题,提高了推荐系统的推荐精度,其改进方案可以有效的提升算法的推荐效率。(2)针对传统推荐系统存在计算缓慢无法根据用户实时行为做出推荐的问题,本文设计并实现了一种能够实时计算的流式处理架构,将该架构和(1)提出的混合推荐算法相融合搭建基于流式计算的个性化推荐系统,并根据需求分析对系统模块进行设计和实现,主要分为基于Flume和Kafka的实时数据流模块、基于Spark Streaming的实时流计算模块和基于Spark中MLlib的推荐引擎模块,并使用HDFS和Hbase进行数据存储,前两者为在线处理部分,后两者为离线处理部分。系统通过将离线处理与在线处理相结合,也即由离线处理部分完成复杂度高、运算量大的计算,而由在线处理部分完成轻量级的计算,从而使得推荐系统能够实时响应用户行为。本文通过实验对设计出的实时推荐系统进行准确性和实时性能测试,其中,改进的FM-SWK-ALS混合推荐算法的准确率、召回率比传统的User CF、Item CF平均都要高出1.5%;本文搭建的实时推荐系统当瞬时数量在8000以内或评分速率在2500以内时,系统的平均响应时间都在5s以内。实验结果表明本文基于流式计算的个性化推荐系统具有良好的性能,在解决冷启动问题的同时,能够满足实时推荐的需求。
基于Spark的协同过滤推荐系统的研究
这是一篇关于协同过滤,推荐系统,Spark,交替最小二乘,循环神经网络的论文, 主要内容为在大数据时代,借助于推荐系统在海量数据中挖掘用户感兴趣的信息具有十分重要的意义。然而,单机模式下的推荐系统在处理大数据时效率低下,随着数据量指数增加,推荐过程增加的时间成本让用户难以接受。针对这一问题,本文研究了基于Spark的协同过滤推荐系统。设计了基于流行加权思想改进的交替最小二乘推荐方法(Alternating Least Squares,简称ALS),以及基于循环神经网络(Recurrent Neural Networks,简称RNN)的协同过滤推荐方法,并在Spark平台上实现了上述两种推荐系统,以及进行了实验验证。主要的研究工作包括以下几个方面:第一、针对评分矩阵数据稀疏的问题,研究了基于ALS的推荐方法。然而,目前提出的ALS忽略了流行项目下的缺失评分所隐含的偏好信息,并没有研究流行项目中的隐式反馈对其被推荐权重的影响。因此本文提出了流行加权的思想,并将该思想应用到ALS算法中,通过流行性评价公式确定未评分缺失项目的权重,并将权重结合到ALS的目标函数中以抑制流行项目被过度推荐。第二、目前的推荐系统主要是静态推荐,即认为用户的兴趣固定不变,没有考虑时间因素对用户兴趣的影响。因此,本文主要研究了基于两种RNN的动态推荐方法,即基于长短时记忆网络(Long Short Term Memory,简称LSTM)的动态推荐方法,以及基于门循环单元(Gated Recurrent Unit,简称GRU)的动态推荐方法。所提出的动态推荐方法借助于RNN的深度学习与动态预测能力实现动态推荐。针对RNN预测用户未来长期兴趣变化的性能不够理想的问题,本文将矩阵分解的思想结合到RNN网络中,由于矩阵分解考虑了用户-项目之间的全局特征,且在静态长期推荐系统中表现较好,因此将两者结合以提高RNN长期预测能力。第三、在Spark并行处理平台上实现了基于流行加权思想改进的ALS推荐系统,以及基于LSTM的动态推荐系统、基于GRU的动态推荐系统、结合矩阵分解与RNN的协同过滤动态推荐系统。第四、为了验证所提方法及系统的推荐效果,将所提推荐方法与基于邻域的推荐、基于ALS的推荐等进行比较实验。实验结果表明改进的ALS算法相比传统ALS算法在预测评分上更加精确,且在准确率和召回率上都有所提升;改进的RNN算法加强了长期预测的能力,并且所提动态推荐在覆盖率上有了大幅提升。
基于Spark的混合推荐系统分析与实现
这是一篇关于Spark,内容推荐,交替最小二乘,神经网络,混合推荐的论文, 主要内容为大数据时代下,推荐系统已经成为解决信息过载的重要手段。但是,推荐系统目前依旧面临着诸多问题,如数据稀疏性、冷启动和时效性等。针对上述问题,本文提出了一个联合内容推荐、交替最小二乘(Alternating Least Squares,ALS)推荐、神经矩阵分解(Neural Matrix Factorization model,Neu MF)推荐的混合算法。然后,在Spark平台上实现了一个电影领域的混合推荐系统,该系统能在一定程度上提升推荐的准确性、时效性。本文主要工作内容如下:首先,针对传统推荐算法的数据稀疏和冷启动,采用融合内容推荐和ALS推荐的混合推荐的方法,在此基础上,提出了一个融合Neu MF的算法,解决了ALS模型的线性表达能力不足的问题。其次,在所提出的混合推荐算法上,设计了混合推荐引擎和Web应用,结合Pyspark和Tensor Flow在分布式平台上同步训练内容推荐、ALS推荐和Neu MF模型,用Python实现了电影的混合推荐系统,并具备软件界面的用户友好性。再次,通过不同节点数和数据量下的运行效率对比,表明了Spark在大数据处理上的优越性。通过控制变量,优化了混合模型参数,并对混合模型的不同算法进行性能对比,结果表明本文提出的混合推荐算法对命中率有较大提升。本文在Spark上将传统的推荐算法与Neu MF神经网络算法相结合,实验结果表明,在分布式平台下前者的可解释性强和后者的表达性强的优势能较好结合,基于本文提出的混合推荐算法实现的电影推荐系统,能给用户提供更个性化、更流畅的信息服务。
基于流式计算的个性化推荐系统的研究与实现
这是一篇关于流式计算,推荐系统,实时性,冷启动,矩阵分解,交替最小二乘的论文, 主要内容为目前,推荐系统无论是在电子商务还是在社交网络都占据着举足轻重的位置。传统的个性化推荐系统虽然能为用户提供准确的推荐服务,但面对不断变化的用户需求还存一些缺陷。由于传统系统定期批量计算数据,使得系统的计算结果无法实时反馈给用户,推荐的数据不能实时更新,使得推荐有滞迟,这即是推荐系统中的实时性问题。此外,在网站的初始阶段,由于用户-物品评分数据的缺乏,导致系统无法进行有效的推荐,这即是推荐算法中的冷启动问题。针对上述问题,本文设计与实现了一个基于流式计算的个性化推荐系统,即将解决冷启动问题的改进的推荐算法应用到推荐系统中,并根据实时的数据流更新推荐结果,本文主要包括以下研究内容:(1)针对推荐算法的冷启动问题,提出了一种基于相似度加权KNN的特征映射算法(Feature Mapping based on Similarity Weighted KNN,FM-SWK)。该算法首先运用相关相似度作为KNN算法的相似性度量方式,求得新用户或新物品的k个最近邻,然后结合用户或物品的属性向量来建立新用户或新物品和已有评分的用户或物品之间的映射关系,最后利用k个最近邻用户或物品的特征信息通过相似度加权的方式来估算新用户或新物品的特征值。其次,将FM-SWK算法和基于ALS-WR(Alternating Least Squares with Wighted Lmabda Regularization,加权正则化交替最小二乘法)的矩阵分解算法相结合,提出基于FM-SWK-ALS(FM-SWK and ALS-WR)的混合推荐算法,该算法利用FM-SWK算法求得的新用户和新物品的特征值,通过基于ALS-WR的矩阵分解模型对新用户或新物品进行推荐。同时,针对基于FM-SWK-ALS的混合推荐算法时间复杂度高和无关的用户和物品特征向量也被计算的问题,从用户和物品两个方面,提出适用于实时数据流的改进方案,该方案增量计算新用户或新物品的特征向量,规避不必要用户或物品特征向量的求解,然后将其应用到上述的混合推荐算法中。我们在搭建的Spark集群上使用公开的Movie Lens数据集对上述提出的混合推荐算法和其改进方案进行分析,将基于ALS-WR的矩阵分解算法和使用平均值填充新用户和新物品缺失评分值的AVG-ALS(ALS-WR based on Average)作为对比算法,从用户和物品两方面分析得出,基于FM-SWK-ALS的混合推荐算法的MAE(Mean Absolute Deviation)和RMSE(Root Mean Square Error)的值明显优于两种对比算法,其改进方案随着数据量的不断增加,迭代计算时间变化缓慢,满足系统计算时间需求。实验结果表明,基于FM-SWK-ALS的混合推荐算法可以在一定程度上有效地解决因由于用户-物品评分数据的缺乏无法进行有效推荐的问题,提高了推荐系统的推荐精度,其改进方案可以有效的提升算法的推荐效率。(2)针对传统推荐系统存在计算缓慢无法根据用户实时行为做出推荐的问题,本文设计并实现了一种能够实时计算的流式处理架构,将该架构和(1)提出的混合推荐算法相融合搭建基于流式计算的个性化推荐系统,并根据需求分析对系统模块进行设计和实现,主要分为基于Flume和Kafka的实时数据流模块、基于Spark Streaming的实时流计算模块和基于Spark中MLlib的推荐引擎模块,并使用HDFS和Hbase进行数据存储,前两者为在线处理部分,后两者为离线处理部分。系统通过将离线处理与在线处理相结合,也即由离线处理部分完成复杂度高、运算量大的计算,而由在线处理部分完成轻量级的计算,从而使得推荐系统能够实时响应用户行为。本文通过实验对设计出的实时推荐系统进行准确性和实时性能测试,其中,改进的FM-SWK-ALS混合推荐算法的准确率、召回率比传统的User CF、Item CF平均都要高出1.5%;本文搭建的实时推荐系统当瞬时数量在8000以内或评分速率在2500以内时,系统的平均响应时间都在5s以内。实验结果表明本文基于流式计算的个性化推荐系统具有良好的性能,在解决冷启动问题的同时,能够满足实时推荐的需求。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕业设计工坊 ,原文地址:https://m.bishedaima.com/lunwen/56339.html