基于边界过采样和集成学习的用户购买预测算法研究
这是一篇关于不均衡数据,用户购买预测,集成学习,推荐系统,电子商务的论文, 主要内容为随着越来越多用户习惯线上消费,电子商务平台积淀了海量的用户行为数据,提供了用户购买预测的数据条件。为更加精准高效地从海量商品中为用户筛选出其最感兴趣的商品,基于用户历史行为预测购买意愿成为电子商务平台推荐系统中的重要一环。用户行为数据中存在大量的浏览、点击行为,而购买行为所占比例极少,存在明显的不均衡情况,若不进行处理会导致严重的预测偏差。然而,在目前的相关研究中很少有学者深入研究用户行为数据的不均衡性处理,并且大多数仍然是基于单个模型进行预测。针对以上问题,本文在经典的过采样算法基础上进行研究与改进,构建了一种基于边界过采样的用户购买预测集成算法,通过面向处于分类边界的样本合成新的少数类别样本,解决用户行为数据普遍存在的极端不均衡问题,并结合Stacking学习法构建了两层的集成模型。为验证改进算法性能提升的稳健性,本文设置了多个具有差异性正负样本比的模拟数据,将边界过采样与传统的数据均衡化处理算法在模拟数据上进行性能对比,同时在真实的电商平台数据上开展算法训练,进一步验证基于边界过采样和集成学习的改进算法的相比常规算法的提升效果。实验结果表明,使用边界过采样不仅相比传统方法有大幅度的提升效果,相比随机过采样、SMOTE在不均衡数据上也有更出色的表现,并且当数据的不均衡性越极端,边界过采样的提升越明显,由此可见边界过采样能够更有效地处理不均衡的用户行为数据,并且能充分利用购买用户的行为信息。除此之外,相比单个模型,使用Stacking集成学习法的融合模型无论是在模拟数据还是真实的用户行为数据集上,相较常用的单一模型都有明显的性能提升,能够更准确、高效地预测出用户在未来是否会进行购买,有利于提高精准营销效率。综上,本文改进的基于边界过采样的用户购买预测集成算法Stack_bsm的性能大部分情况下都优于其他算法,是一种有效的用户购买预测算法。
基于异源集成算法的用户购买行为预测研究
这是一篇关于用户购买预测,时间滑窗,深度森林,Stacking,异源集成算法的论文, 主要内容为随着电子商务的飞速发展和互联网、物联网的普及,互联网用户信息量与日俱增。现阶段,我们已进入信息爆炸的大数据时代,“大数据”已成为现代社会的重要标志之一。电商大数据中用户对商品的操作行为可以体现用户偏好,如何从海量真实数据中挖掘出用户的潜在偏好成为学术界和工业界的研究重点,而且现今已取得众多的研究成果。在现有的用户购买行为预测问题的研究中,未全面考虑多类用户行为特征及不同行为间的关系,且集成算法的应用以同源集成为主。鉴于此,本文在真实数据集上,从五方面构建整体用户行为特征,综合考虑深度学习的表征学习能力和集成学习的训练效率,引入多层异源集成算法,将随机森林(Random Forest,RF)、LightGBM和XGBoost等多种算法进行组合,搭建了基于深度森林和Stacking学习法的多层算法框架,对用户复购行为和购买日期进行预测。本文主要工作如下:1.在用户购买预测基础预备方面,详细介绍了国内外研究现状及研究成果,对该领域应用广泛的算法模型进行描述,如传统机器学习算法:逻辑回归(Logistic Regression,LR)、支持向量机(Support Vector Machine,SVM)和决策树(Decision Tree,DT),同源集成算法:随机森林、XGBoost、LightGBM以及卷积神经网络(Convolutional neural network,CNN)模型,介绍了以上模型的理论基础及模型架构。2.在时间滑动窗口特征构建方面,深入研究了特征提取、特征选择和特征构建的相关理论和关键性技术。基于电商平台用户行为数据集共有的稀疏性问题和时序性特点,创新性地引入时间滑动窗口技术构建不同时间窗口下的特征,提出窗口权重递减的特征构建方法。最终,从基本特征、时序特征和关联关系特征等五个方面共提取249维特征向量作为训练数据集。3.在用户购买行为预测研究方面,从两方面展开研究:首先,在研究了深度森林算法理论基础和技术优化的基础上,提出一种基于多粒度级联森林(multi-Grained Cascade forest,gcForest)的用户复购行为预测方法,该方法利用多粒度扫描模块将249维输入特征转化成1800维实例特征,通过深度级联森林对特征进行逐层表征学习输出最终结果。然后,提出一种基于Stacking的用户购买日期预测方法,进一步预测用户购买日期。实验结果表明,以上算法在预测准确率和训练时间上均取得较好的结果。从而证明了异源集成算法在电商领域应用的有效性。
基于LightGBM的用户购买行为预测研究
这是一篇关于用户购买预测,时间滑动窗口,XGBoost,LightGBM的论文, 主要内容为电子商务的概念愈发火热,各种电商平台纷纷涌现,越来越多的人加入网购的大军,但当电商平台发展到一定程度后,流量的增加终究会停止,提高流量转化率无疑是一个重要且紧迫的课题.目前各电商平台都引入了推荐算法,为用户推荐其喜好的商品,提高用户体验,而预测是推荐的基础,提前预测出用户的购买倾向无疑会大大提高推荐算法的效果,这是一项极具意义的工作.基于此,本文选取京东算法大赛的数据来对用户购买行为预测进行研究,主要工作内容及成果如下:1.确定预测目标:在一段时间内有行为记录的用户-品类-店铺组合(称为F1ID)中,预测未来7天会产生购买行为的F1ID,这是预测中的二分类问题.2.确定训练集和预测集样本.选取2018-03-19到2018-04-01按照正负样本比为1:30负采样后共517049个有行为记录的F1ID作为训练样本,其中在未来7天发生购买的F1ID的标签为1,其余为0;选取2018-03-26到2018-04-08共1792209个有行为记录的F1ID作为预测样本,其中在未来7天发生购买的F1ID的标签为1,其余为0.3.构建基于时间滑动窗口的特征.本文从基本特征、累积特征、时间滑动窗口特征3个方面在用户、品类、店铺、用户-品类、用户-品类-店铺5个维度构建了564维特征,并对特征在缺失值等方面做了相应的处理.4.构建模型并选择最终的预测模型.本文利用LR、RF、GBDT、XGBoost、LightGBM在517049*565的训练集上训练模型,并在1792209*565的预测集上预测,从AUC、F1分数、训练时间等方面比较分析,最终选取LightGBM作为最终的模型.
孩子王用户购买预测及不同商品类目下重要特征分析
这是一篇关于孩子王app,用户购买预测,不平衡数据,欠采样,XGBoost的论文, 主要内容为随着互联网和机器学习技术的不断发展,越来越多的公司通过数据挖掘技术从公司历史大数据中寻求商机和运营方向。其中用户作为公司的主体消费者,从用户数据角度出发的数据挖掘是各大公司研究的主要方向。对线上电商平台而言,从用户数据中获得方法维系用户群体、经营好用户关系更是重中之重。孩子王app作为一家母婴类线上销售平台,为获得自身的竞争优势,必须要对数据赋能,从数据中获得价值和收益。本文首先对数据集进行特征清洗和缺失值填补,再对类别特征编码处理,对连续型特征进行主成分分析、对数变换以及标准化处理。在此基础上,先后在Logistic回归模型、XGBoost模型和Cat Boost模型中分别使用过采样、SMOTE过采样、欠采样和代价敏感4种处理不平衡数据方法下数据集进行模型拟合和特征筛选,并得出各模型下的准确率、AUC、召回率和F1。最后得出欠采样和特征筛选后的XGBoost模型性能较好,测试集上的召回率达到了86.18%,表明86.18%的正例样本被预测正确,符合本文提高模型预测正例样本能力的目标。接着本文对不同商品类目的数据集,先后在XGBoost和Cat Boost中分别使用4种方法处理不平衡数据并进行模型拟合,分别在XGBoost和Cat Boost选择不同商品类目下性能较优模型的重要特征进行对比分析,最后对两种算法的重要特征进行合并分析,给孩子王app数据运营提出一定建议。
基于LightGBM的用户购买行为预测研究
这是一篇关于用户购买预测,时间滑动窗口,XGBoost,LightGBM的论文, 主要内容为电子商务的概念愈发火热,各种电商平台纷纷涌现,越来越多的人加入网购的大军,但当电商平台发展到一定程度后,流量的增加终究会停止,提高流量转化率无疑是一个重要且紧迫的课题.目前各电商平台都引入了推荐算法,为用户推荐其喜好的商品,提高用户体验,而预测是推荐的基础,提前预测出用户的购买倾向无疑会大大提高推荐算法的效果,这是一项极具意义的工作.基于此,本文选取京东算法大赛的数据来对用户购买行为预测进行研究,主要工作内容及成果如下:1.确定预测目标:在一段时间内有行为记录的用户-品类-店铺组合(称为F1ID)中,预测未来7天会产生购买行为的F1ID,这是预测中的二分类问题.2.确定训练集和预测集样本.选取2018-03-19到2018-04-01按照正负样本比为1:30负采样后共517049个有行为记录的F1ID作为训练样本,其中在未来7天发生购买的F1ID的标签为1,其余为0;选取2018-03-26到2018-04-08共1792209个有行为记录的F1ID作为预测样本,其中在未来7天发生购买的F1ID的标签为1,其余为0.3.构建基于时间滑动窗口的特征.本文从基本特征、累积特征、时间滑动窗口特征3个方面在用户、品类、店铺、用户-品类、用户-品类-店铺5个维度构建了564维特征,并对特征在缺失值等方面做了相应的处理.4.构建模型并选择最终的预测模型.本文利用LR、RF、GBDT、XGBoost、LightGBM在517049*565的训练集上训练模型,并在1792209*565的预测集上预测,从AUC、F1分数、训练时间等方面比较分析,最终选取LightGBM作为最终的模型.
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设货栈 ,原文地址:https://m.bishedaima.com/lunwen/55925.html