基于GBDT和LR融合的个人信用评估模型的研究与应用
这是一篇关于特征组合,GBDT与LR融合,互联网金融,指标体系,信用评估的论文, 主要内容为随着“互联网+”时代的到来,我国互联网金融行业飞速发展,给人们信用消费带来了快捷与便利。信用消费在促进经济繁荣发展方面充当着一个重要的角色,人们信用消费意愿逐渐加强和消费能力也逐渐提高。国内的大多数互联网金融行业公司也逐渐把个人信用消费业务作为后续研究突破的重要领域之一。然而,个人信用数据规模正在逐渐扩大,社交平台的社交数据和电商平台的电商数据等都可以作为其一部分,互联网金融个人信用原始数据集数据类型复杂而且数据量大。绝大多数的互联网金融行业公司的个人信用评估方法的评估结果不是很理想,这使得个人信用消费业务发展缓慢。本文针对上述问题,通过分析GBDT与LR两种模型的优缺点和互补性,即LR线性模型处理速度快、对全局把握性好但是对特征要求比较高,GBDT适合处理非线性数据,其思想可以用来构造组合特征,充分挖掘数据信息,然而却不能并行进行不适合处理数据量大的数据集,提出了基于GBDT与LR融合的模型。根据UCI德国信用数据集,通过实验单一变量方法利用GBDT模型从原始大量数据中获得组合特征,并将构造的新的特征与原始数据特征一起在利用LR进行训练,通过将得到的结果与其他单一模型进行比较,得到了基于GBDT与LR融合的信用评估模型在预测准确率为87.7%,比单一模型高出很多,方差1.82表明其在稳定性上也具有一定的优势,此融合模型可以进行推广应用。进一步将基于GBDT和LR的融合模型应用到互联网金融数据集上,本次实验采用“Give me some credit”信用数据,首先引入了互联网金融个人信用评估指标体系,在此体系之上对数据集进行了数据预处理,针对处理好的数据集,分别建立了基于GBDT的评估模型、基于LR的评估模型、基于GBDT和LR融合的模型,实验结果显示该融合模型得到的AUC值高达0.85,相较于单一模型有显著提高。本文通过理论和实验进行了论证,基于GBDT与LR的个人信用评估模型在互联网金融个人信用评估领域具有一定的优势,推动我国互联网金融行业的不断发展创新方面具有很大的实践意义,值得研究。
基于深度学习的点击率预测问题研究
这是一篇关于深度学习,点击率预测,特征组合,注意力机制的论文, 主要内容为近年来,互联网的数据采集技术不断成熟,信息过载问题日益严重,而推荐系统是解决信息过载的有效工具之一。在工业化的推荐系统中,点击率预测成为推荐系统排序阶段的重要环节,而传统的点击率预测模型已经不能满足当前的任务需求。随着深度学习技术在各领域不断成熟,也逐渐被应用于推荐系统的点击率预测任务之中。本文通过对基于深度学习的点击率预测模型进行研究分析,提出两种新的点击率预测模型。(1)基于extreme Deep Factorization Machine(xDeepFM)的点击率预测模型。可从多角度挖掘特征间的组合关系,表达能力更强,且可实现完全自动学习。为解决推荐数据特征冗余问题,引入注意力机制,可以根据场景需求动态学习特征重要性权值,抑制噪声数据。同时改进了激活函数,可以根据数据分布灵活调整跃阶变化点,有效提升了模型预测准确率。在开源数据集Avazu和Criteo上进行了对比实验,实验结果表明该模型预测的准确率和偏差比现阶段的深度学习预测模型更优秀。(2)基于改进的xDeepFM和用户兴趣的点击率预测模型。利用多头注意力机制提取用户行为序列的兴趣因子,保证了用户兴趣的进化性,针对给定不同的待预测物品ID,可以学习不同的多样性权值。网络输出含有用户兴趣因子的表征向量,将用户兴趣表征与挖掘到的特征组合进行拼接,可有效提升整体模型的推荐多样性。在开源数据集Movie Lens上进行实验,实验结果表明模型预测准确率比其他预测模型更高。
基于用户行为序列的推荐算法研究及应用
这是一篇关于用户行为序列,推荐算法,兴趣特征,注意力机制,特征组合的论文, 主要内容为在大数据时代,信息产生的速度越来越快,各行各业所累积的数据量也越来越大。比如在淘宝和京东这样的电商场景中,无论是用户的数量还是商品的数量,都是以亿为计量单位的。因此,对于一个普通的用户而言,在不借助任何工具的情况下,想要从海量的商品池中快速地找到自己感兴趣的商品是一件极其困难的事情。在这种情况下,推荐系统的产生成为了一种必然,可以帮助用户从海量信息中迅速获取有效的信息。深度学习兴起之后,融合因子分解机算法的深度学习模型成为点击率预估和推荐系统领域中一个的主流研究方向。但是,该类模型的关注点基本都是在特征与特征之间的组合上。随着对推荐系统研究的深入,越来越多的研究人员开始关注时序推荐场景下的用户行为序列等相关信息。用户的行为序列可以用来表示该用户的兴趣特征,并且这种兴趣特征具有“多样性”和“动态变化”的特点。因此,基于时序推荐场景中的用户行为序列相关信息进行建模,可以有效提高推荐的精度。比如,阿里技术团队结合自身的电商场景,首次提出了面向时序推荐场景的深度兴趣网络,并在实践中取得了不错的效果。此后,阿里技术团队在深度兴趣网络的基础之上又相继提出了很多优秀的时序推荐模型,并且这些模型都是基于用户的行为序列进行建模的。虽然阿里等团队在时序推荐的研究上取得了重大成就,但仍然存在很多问题和难点。比如,当用户的行为序列过长时,如何快速并准确的提取用户的兴趣特征是一大难点。同时,如何在基于用户行为序列的时序推荐模型中融合因子分解机算法也是一个值得研究的方向。基于以上内容,本文在现有时序推荐模型的基础之上进行改进和优化,提出了两个较为优秀的时序推荐模型,并将其整合到电信套餐推荐系统中。在基于用户行为序列的时序推荐算法理论基础之上,本文结合实际进行研究并开展了以下几项工作:(1)在阿里深度兴趣网络的基础上进行改进,并提出了一个新的时序推荐模型DAMIN。首先,改变用户动态兴趣特征层中注意力的计算方式,使用两个物品向量间欧式距离平方的倒数作为其注意力权重。与深度兴趣网络中的注意力计算方式相比,这种计算方式更具可解释性,并取得了不错的效果。其次,为了更加充分地利用候选物品向量的信息,本文对候选物品向量也进行加权操作,并使用加权后的候选物品向量与加权后的用户点击物品向量进行求和操作。这样做的目的是使得相似的两个物品向量更加的相似,不相似的两个物品向量更加的不相似。最后,将加权后的新向量作为多兴趣特征提取层的输入,用以捕捉用户的多种兴趣特征。(2)同样在深度兴趣网络的基础之上,本文提出了一个融合因子分解机算法的时序推荐模型AIN-DIN。相对用户的行为序列信息而言,物品的属性属于非时序的特征信息。为了更加充分地挖掘物品属性特征之间的关系,本文使用因子分解机算法来处理相关信息,并对物品的属性特征进行组合,使得模型的学习能力得以提升。在深度兴趣网络等模型中,用户的行为序列是由该用户浏览或者点击过的多个物品所构成的。因此,如何在基于用户行为序列的时序推荐模型中融合因子分解机相关算法,并显式地进行物品属性特征之间的组合将是一个难点,而本文提出的AIN-DIN模型能够有效地解决这个问题。(3)本文选取了点击率预估和推荐系统行业内比较认可的亚马逊数据集和某电信公司真实生产环境中的套餐数据集,并有针对性的设计开展了大量的实验,结果证明本文提出的DAMIN模型与AIN-DIN模型能够取得不错的表现。最后,本文结合实际场景设计与实现了一个面向业务分析人员的电信套餐推荐系统,并在该系统中整合了本文提出的时序推荐模型,有效提升了套餐推荐的准确性。
基于GBDT和LR融合的个人信用评估模型的研究与应用
这是一篇关于特征组合,GBDT与LR融合,互联网金融,指标体系,信用评估的论文, 主要内容为随着“互联网+”时代的到来,我国互联网金融行业飞速发展,给人们信用消费带来了快捷与便利。信用消费在促进经济繁荣发展方面充当着一个重要的角色,人们信用消费意愿逐渐加强和消费能力也逐渐提高。国内的大多数互联网金融行业公司也逐渐把个人信用消费业务作为后续研究突破的重要领域之一。然而,个人信用数据规模正在逐渐扩大,社交平台的社交数据和电商平台的电商数据等都可以作为其一部分,互联网金融个人信用原始数据集数据类型复杂而且数据量大。绝大多数的互联网金融行业公司的个人信用评估方法的评估结果不是很理想,这使得个人信用消费业务发展缓慢。本文针对上述问题,通过分析GBDT与LR两种模型的优缺点和互补性,即LR线性模型处理速度快、对全局把握性好但是对特征要求比较高,GBDT适合处理非线性数据,其思想可以用来构造组合特征,充分挖掘数据信息,然而却不能并行进行不适合处理数据量大的数据集,提出了基于GBDT与LR融合的模型。根据UCI德国信用数据集,通过实验单一变量方法利用GBDT模型从原始大量数据中获得组合特征,并将构造的新的特征与原始数据特征一起在利用LR进行训练,通过将得到的结果与其他单一模型进行比较,得到了基于GBDT与LR融合的信用评估模型在预测准确率为87.7%,比单一模型高出很多,方差1.82表明其在稳定性上也具有一定的优势,此融合模型可以进行推广应用。进一步将基于GBDT和LR的融合模型应用到互联网金融数据集上,本次实验采用“Give me some credit”信用数据,首先引入了互联网金融个人信用评估指标体系,在此体系之上对数据集进行了数据预处理,针对处理好的数据集,分别建立了基于GBDT的评估模型、基于LR的评估模型、基于GBDT和LR融合的模型,实验结果显示该融合模型得到的AUC值高达0.85,相较于单一模型有显著提高。本文通过理论和实验进行了论证,基于GBDT与LR的个人信用评估模型在互联网金融个人信用评估领域具有一定的优势,推动我国互联网金融行业的不断发展创新方面具有很大的实践意义,值得研究。
基于用户行为序列的推荐算法研究及应用
这是一篇关于用户行为序列,推荐算法,兴趣特征,注意力机制,特征组合的论文, 主要内容为在大数据时代,信息产生的速度越来越快,各行各业所累积的数据量也越来越大。比如在淘宝和京东这样的电商场景中,无论是用户的数量还是商品的数量,都是以亿为计量单位的。因此,对于一个普通的用户而言,在不借助任何工具的情况下,想要从海量的商品池中快速地找到自己感兴趣的商品是一件极其困难的事情。在这种情况下,推荐系统的产生成为了一种必然,可以帮助用户从海量信息中迅速获取有效的信息。深度学习兴起之后,融合因子分解机算法的深度学习模型成为点击率预估和推荐系统领域中一个的主流研究方向。但是,该类模型的关注点基本都是在特征与特征之间的组合上。随着对推荐系统研究的深入,越来越多的研究人员开始关注时序推荐场景下的用户行为序列等相关信息。用户的行为序列可以用来表示该用户的兴趣特征,并且这种兴趣特征具有“多样性”和“动态变化”的特点。因此,基于时序推荐场景中的用户行为序列相关信息进行建模,可以有效提高推荐的精度。比如,阿里技术团队结合自身的电商场景,首次提出了面向时序推荐场景的深度兴趣网络,并在实践中取得了不错的效果。此后,阿里技术团队在深度兴趣网络的基础之上又相继提出了很多优秀的时序推荐模型,并且这些模型都是基于用户的行为序列进行建模的。虽然阿里等团队在时序推荐的研究上取得了重大成就,但仍然存在很多问题和难点。比如,当用户的行为序列过长时,如何快速并准确的提取用户的兴趣特征是一大难点。同时,如何在基于用户行为序列的时序推荐模型中融合因子分解机算法也是一个值得研究的方向。基于以上内容,本文在现有时序推荐模型的基础之上进行改进和优化,提出了两个较为优秀的时序推荐模型,并将其整合到电信套餐推荐系统中。在基于用户行为序列的时序推荐算法理论基础之上,本文结合实际进行研究并开展了以下几项工作:(1)在阿里深度兴趣网络的基础上进行改进,并提出了一个新的时序推荐模型DAMIN。首先,改变用户动态兴趣特征层中注意力的计算方式,使用两个物品向量间欧式距离平方的倒数作为其注意力权重。与深度兴趣网络中的注意力计算方式相比,这种计算方式更具可解释性,并取得了不错的效果。其次,为了更加充分地利用候选物品向量的信息,本文对候选物品向量也进行加权操作,并使用加权后的候选物品向量与加权后的用户点击物品向量进行求和操作。这样做的目的是使得相似的两个物品向量更加的相似,不相似的两个物品向量更加的不相似。最后,将加权后的新向量作为多兴趣特征提取层的输入,用以捕捉用户的多种兴趣特征。(2)同样在深度兴趣网络的基础之上,本文提出了一个融合因子分解机算法的时序推荐模型AIN-DIN。相对用户的行为序列信息而言,物品的属性属于非时序的特征信息。为了更加充分地挖掘物品属性特征之间的关系,本文使用因子分解机算法来处理相关信息,并对物品的属性特征进行组合,使得模型的学习能力得以提升。在深度兴趣网络等模型中,用户的行为序列是由该用户浏览或者点击过的多个物品所构成的。因此,如何在基于用户行为序列的时序推荐模型中融合因子分解机相关算法,并显式地进行物品属性特征之间的组合将是一个难点,而本文提出的AIN-DIN模型能够有效地解决这个问题。(3)本文选取了点击率预估和推荐系统行业内比较认可的亚马逊数据集和某电信公司真实生产环境中的套餐数据集,并有针对性的设计开展了大量的实验,结果证明本文提出的DAMIN模型与AIN-DIN模型能够取得不错的表现。最后,本文结合实际场景设计与实现了一个面向业务分析人员的电信套餐推荐系统,并在该系统中整合了本文提出的时序推荐模型,有效提升了套餐推荐的准确性。
基于用户行为序列的推荐算法研究及应用
这是一篇关于用户行为序列,推荐算法,兴趣特征,注意力机制,特征组合的论文, 主要内容为在大数据时代,信息产生的速度越来越快,各行各业所累积的数据量也越来越大。比如在淘宝和京东这样的电商场景中,无论是用户的数量还是商品的数量,都是以亿为计量单位的。因此,对于一个普通的用户而言,在不借助任何工具的情况下,想要从海量的商品池中快速地找到自己感兴趣的商品是一件极其困难的事情。在这种情况下,推荐系统的产生成为了一种必然,可以帮助用户从海量信息中迅速获取有效的信息。深度学习兴起之后,融合因子分解机算法的深度学习模型成为点击率预估和推荐系统领域中一个的主流研究方向。但是,该类模型的关注点基本都是在特征与特征之间的组合上。随着对推荐系统研究的深入,越来越多的研究人员开始关注时序推荐场景下的用户行为序列等相关信息。用户的行为序列可以用来表示该用户的兴趣特征,并且这种兴趣特征具有“多样性”和“动态变化”的特点。因此,基于时序推荐场景中的用户行为序列相关信息进行建模,可以有效提高推荐的精度。比如,阿里技术团队结合自身的电商场景,首次提出了面向时序推荐场景的深度兴趣网络,并在实践中取得了不错的效果。此后,阿里技术团队在深度兴趣网络的基础之上又相继提出了很多优秀的时序推荐模型,并且这些模型都是基于用户的行为序列进行建模的。虽然阿里等团队在时序推荐的研究上取得了重大成就,但仍然存在很多问题和难点。比如,当用户的行为序列过长时,如何快速并准确的提取用户的兴趣特征是一大难点。同时,如何在基于用户行为序列的时序推荐模型中融合因子分解机算法也是一个值得研究的方向。基于以上内容,本文在现有时序推荐模型的基础之上进行改进和优化,提出了两个较为优秀的时序推荐模型,并将其整合到电信套餐推荐系统中。在基于用户行为序列的时序推荐算法理论基础之上,本文结合实际进行研究并开展了以下几项工作:(1)在阿里深度兴趣网络的基础上进行改进,并提出了一个新的时序推荐模型DAMIN。首先,改变用户动态兴趣特征层中注意力的计算方式,使用两个物品向量间欧式距离平方的倒数作为其注意力权重。与深度兴趣网络中的注意力计算方式相比,这种计算方式更具可解释性,并取得了不错的效果。其次,为了更加充分地利用候选物品向量的信息,本文对候选物品向量也进行加权操作,并使用加权后的候选物品向量与加权后的用户点击物品向量进行求和操作。这样做的目的是使得相似的两个物品向量更加的相似,不相似的两个物品向量更加的不相似。最后,将加权后的新向量作为多兴趣特征提取层的输入,用以捕捉用户的多种兴趣特征。(2)同样在深度兴趣网络的基础之上,本文提出了一个融合因子分解机算法的时序推荐模型AIN-DIN。相对用户的行为序列信息而言,物品的属性属于非时序的特征信息。为了更加充分地挖掘物品属性特征之间的关系,本文使用因子分解机算法来处理相关信息,并对物品的属性特征进行组合,使得模型的学习能力得以提升。在深度兴趣网络等模型中,用户的行为序列是由该用户浏览或者点击过的多个物品所构成的。因此,如何在基于用户行为序列的时序推荐模型中融合因子分解机相关算法,并显式地进行物品属性特征之间的组合将是一个难点,而本文提出的AIN-DIN模型能够有效地解决这个问题。(3)本文选取了点击率预估和推荐系统行业内比较认可的亚马逊数据集和某电信公司真实生产环境中的套餐数据集,并有针对性的设计开展了大量的实验,结果证明本文提出的DAMIN模型与AIN-DIN模型能够取得不错的表现。最后,本文结合实际场景设计与实现了一个面向业务分析人员的电信套餐推荐系统,并在该系统中整合了本文提出的时序推荐模型,有效提升了套餐推荐的准确性。
基于用户、商品和上下文特征的推荐系统算法研究
这是一篇关于推荐系统,上下文信息,CTR,特征组合,自适应因子分解网络(AFN)的论文, 主要内容为在互联网蓬勃发展的今天,线上广告、新闻、购物、娱乐等与人们的日常生活息息相关。但是,移动互联网产生海量信息,而人们浏览的信息量有限,如何在复杂多样的信息中挑选目标数据成为挑战。推荐系统通过引导人们购物、新闻浏览、娱乐成为了移动互联网的主流技术,提高推荐系统的精确性对解决人们的挑选困难成为重点关注的话题。为了提高系统点击率(CTR)预估的精确性,需要从庞大的用户历史行为记录中挖掘能指导模型预估点击率的有效信息。为此,论文旨在搭建新模型,来提升点击率的预估精确度。针对推荐系统特征组合问题,充分利用用户、商品和上下文信息,在推荐系统Deep FM模型基础上,提出了改进的点击率预估模型,具体研究工作如下:首先,为了让数据适应模型,纠正或删除不适用于模型的记录,本文对数据进行预处理。数据预处理的方法包括删除唯一属性、解决缺失值、离群值处理、特征编码、数据正则化、选择特征分析主要成分等;为了降低计算成本,将数据变换为更能代表预测模型潜在问题的特征,论文对数据集的数据进行特征工程处理。特征工程处理分两步,一是选择特征、二是特征数字化。对类别变量使用独热编码进行数字化,得到机器学习易于利用的形式。其次,论文对基于因子分解机的CTR预测神经网络(Deep FM)、自适应因子分解网络(AFN)进行研究,创新性地提出了一个融合自适应分解网络的因子分解机神经网络,简称AFN+Deep FM模型。推荐系统数据经常是高维的、多领域的、稀疏的、多类型的、关联却又很少的,而AFN+Deep FM模型中的矩阵分解法能充分挖掘上下文信息进行学习。一方面,Deep FM模型的深度学习模块能从已知的特征中找到有隐藏关系的特征,将它们进行高阶特征交互,以提高模型预估效果。另一方面,AFN模型在前馈神经网络前添加对数转换层,自适应地对输入的特征进行交互输出不同阶的特征组合,前馈神经网络对不同阶的特征组合进行高阶特征交互,AFN模型在不同阶的特征向量组合中挖掘更多的信息,对点击率预估的指导能力变强。因此AFN+Deep FM模型弥补了因子分解机(FM)仅仅能实现一阶、二阶的低阶特征交互的缺陷,挖掘更多的信息,以实现融合模型性能提升。最后,论文对所提出的AFN+Deep FM模型进行了实验验证。模型在Criteo数据集上和Avazu数据集上训练学习,最终AUC值相对其他几个主流模型有所提升,Log Loss值相对其他模型有所下降,证明了AFN+Deep FM模型的有效性。综上,本文提出的AFN+Deep FM模型既进行低阶特征组合、对输入的特征进行高阶特征组合,又对不同阶的特征组合进行高阶交互,充分挖掘信息,提高模型CTR预估准确度。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设港湾 ,原文地址:https://m.bishedaima.com/lunwen/48816.html