基于时间门控循环网络的用户行为序列建模
这是一篇关于序列建模,门控循环网络,注意力机制,推荐系统的论文, 主要内容为作为个性化搜索和推荐系统的核心,用户行为建模决定着个性化系统的效果,一直吸引着研究人员的关注。在循环神经网络(RNN)被提出后,由于其对于序列数据的强大拟合能力,被广泛应用在如行为序列预测、语言模型等领域。不过,传统RNN框架仅仅考虑了序列的顺序关系,对序列的时间间隔并没有明显的感知。而对于行为序列问题而言,行为的时间间隔是刻画行为关联的一个重要特征。因此,本文对RNN框架中一种广泛应用的变体——GRU进行了改进,增加了时间门结构和基于时间的注意力机制,本文称之为Time-GRU。模型中的两个模块引入了时间信息,相比传统模型,能够同时预测用户的长期和短期偏好,从而提高推荐和搜索排序的结果。本文在两个著名的公开数据集和一个电商平台的离线数据集上进行了实验,并在线上环境进行了 AB测试,实验结果表明,Time-GRU超过了目前现有的先进算法。
基于时间门控循环网络的用户行为序列建模
这是一篇关于序列建模,门控循环网络,注意力机制,推荐系统的论文, 主要内容为作为个性化搜索和推荐系统的核心,用户行为建模决定着个性化系统的效果,一直吸引着研究人员的关注。在循环神经网络(RNN)被提出后,由于其对于序列数据的强大拟合能力,被广泛应用在如行为序列预测、语言模型等领域。不过,传统RNN框架仅仅考虑了序列的顺序关系,对序列的时间间隔并没有明显的感知。而对于行为序列问题而言,行为的时间间隔是刻画行为关联的一个重要特征。因此,本文对RNN框架中一种广泛应用的变体——GRU进行了改进,增加了时间门结构和基于时间的注意力机制,本文称之为Time-GRU。模型中的两个模块引入了时间信息,相比传统模型,能够同时预测用户的长期和短期偏好,从而提高推荐和搜索排序的结果。本文在两个著名的公开数据集和一个电商平台的离线数据集上进行了实验,并在线上环境进行了 AB测试,实验结果表明,Time-GRU超过了目前现有的先进算法。
服务于广告推荐的用户特征模型研究
这是一篇关于推荐系统,特征挖掘,序列建模,Transformer,行为预测,特征扩散的论文, 主要内容为推荐系统作为互联网公司的增长引擎,对互联网公司来说,能够极大限度地吸引用户,留住用户,增加用户粘性,提高用户转化率,从而为公司达到商业目标连续增长的目的。各大互联网公司都在大力发展自己的推荐系统。效果好的推荐系统则需要效果好的推荐模型,随着近年来深度学习的崛起,深度学习对推荐系统在推荐模型的发展具有革命性的贡献,与传统机器学习推荐模型相比,深度学习模型一方面具有更强的特征组合挖掘能力,另一方面具有更强的数据模式的拟合能力。在构建推荐系统的过程中,推荐系统模型固然重要,但绝不意味着模型就是全部,特征工程也具有非常大的作用,好的特征往往能达到事半功倍的效果,为了构建出好的特征工程,人们对此进行了大量的研究。腾讯公司作为国内最大的社交网络公司,旗下的产品例如微信,腾讯QQ,腾讯新闻等掌握着巨额的流量,和国内很多很公司进行深度合作,在腾讯的各大平台上通过广告来推广其他公司的产品。为了达成较好的广告推荐效果,需要一个较好的特征工程来帮助模型实现其效果,本文就是在腾讯公司的数据基础上提出一个新的特征扩散解决方案来帮助公司构建好的特征工程。广告主为了获得好的投放效果,往往会将自身旗下的第一方数据上传给腾讯公司。本文就是对其中的第一方行为数据挖掘较为有用的特征,由于一方行为数据较为稀疏,从其中获得的特征尽管在公司离线验证平台上对模型有效,但是特征所包含的用户覆盖程度不够,使得模型的效果不够置信。为了使特征更加令人信服,本文提出了两阶段的模型解决方案来解决用户覆盖度问题。第一阶段为行为生成阶段利用已有的活跃用户画像数据,采用本文改进的Transformer模型对用户行为序列进行生成预测。第二阶段为特征建模扩散阶段利用行为生成阶段生成的用户行为序列,结合腾讯的精准用户画像,通过本文提出的FMBST模型进行时序建模,将在NLP领域中大放异彩Transformer经过改良引入深度学习广告推荐系统,对特征在全量活跃用户进行扩散,进而解决特征的覆盖度问题。本文提出的FMBST模型,对三部分输入进行不同处理。公司内部精准的用户画像通过多层全连接层,用户的历史行为按照时序模型通过Transformer,将二者的输出进行拼接后,交由多层全连接层处理,最后和行业有关的画像通过FM的结果一起对相应特征进行回归。通过和目前主流深度学习推荐系统模型Wide&Deep,Deep FM,DIN,DIEN,BST相比,本文提出的FMBST在特征回归的效果,线下和线上验证的评估均取得了最优异的成绩。FMBST不仅可以用于相关特征的扩散,还可以用于CTR/CVR预测任务,和主流深度学习模型进对比,同样取得了较为优秀的结果。本文最后总结了FMBST相对于其他所模型的优缺点,并且未来对进一步优化FMBST模型的效果和效率进行了进一步的展望。
基于时序信息的协同过滤算法研究
这是一篇关于协同过滤,序列建模,Word2vec,马尔可夫链,混合相似度的论文, 主要内容为近年来,推荐系统发展迅速,在诸如淘宝、京东、亚马逊等各大电商平台上随处可见,它在一定程度上给商家带来了可观的经济收益,同时也帮助用户更好地选择商品。传统推荐算法主要研究用户与物品之间的关系,然后给用户推荐最符合他们兴趣爱好的物品集。但在现实生活中,用户的历史行为隐含着某些辅助信息,例如相邻物品间的关系等信息。比如一个Java开发工程师,随着工作时间的增加,其阅读的书籍逐渐由入门类书籍过渡到更加专业的书籍;对于一个新进社员,购买衣服的品味与学生时代也可能有所不同。所以在传统推荐算法的基础上,关注用户的全局时序信息或短期时序信息,将更有利于捕捉用户未来的行为和偏好。传统推荐算法在用户对物品的偏好信息建模上考虑的信息比较单一,如经典的矩阵分解MF(matrix factorization)把用户的历史行为信息看作是一个用户与物品的评分矩阵,然后通过因式分解将其分解成两个低维的用户、物品潜在特征矩阵来学习用户和物品之间的关系。然而,很多大型网站后台对注册用户的行为记录都附带时间戳,由此产生了大量可供时序推荐算法使用的数据。首先,传统推荐算法RSVD(regularized Singular value decomposition)缺乏对时序信息的建模,于是本文在RSVD的基础上引入自然语言处理中的序列建模方法Word2vec来捕捉时序信息,进而提出了TRSVD模型,并在两个真实的数据集上验证了模型的有效性;同时考虑到不同数据集中用户的物品序列间时间跨度不同的问题,在TRSVD的基础上,进一步改进算法,提出了TRSVD+模型,该模型能够有效地预测用户对物品的评分,在推荐精度上取得了比RSVD和TRSVD更好的效果。其次,本文在传统序列推荐算法Fossil(fusing similarity models with Markov chains)的基础上进行改进。因为Fossil模型中短期序列项的权重只关注目标物品(即被预测物品)前个相对位置上的物品对它的权值贡献,相对位置的权重贡献较为笼统。为此,我们提出了基于混合相似度的序列敏感模型S-FMSM(sequence-aware factored mixed similarity model),该模型综合考虑了目标物品前个特定物品对它的权值贡献。此外,我们考虑到机器学习中常用的损失函数有基于成对偏好假设的损失函数和基于逐点偏好假设的损失函数,于是,我们设计了包含两种不同目标函数的S-FMSM模型,并在六个真实的数据集上与五个经典的推荐算法(包含时序与非时序)进行了比较,实验结果表明所提出的S-FMSM模型是较为有效的。
基于用户行为序列的兴趣挖掘算法研究
这是一篇关于序列建模,用户长短期兴趣,召回,排序的论文, 主要内容为随着大数据技术及人工智能的蓬勃发展,人们可以通过各类新型媒体获取海量资源。但太多的内容会造成信息冗余,用户难以在短时间内获取真正感兴趣的信息,个性化推荐系统由此产生,成为联系用户和媒体不可或缺的工具。推荐最关键的是准确地捕捉用户的兴趣,但用户在不同阶段会有不同的兴趣。传统的推荐算法大部分对用户兴趣的挖掘不够深入,没有充分利用用户历史行为,显然丢失了很多信息,最终给用户呈现的内容不够准确。本文针对传统推荐算法挖掘用户兴趣力度不足的问题,设计了通过对用户行为序列建模从而捕获用户长短期兴趣的算法。工业界的推荐系统主要由召回和排序两个阶段组成,召回是从内容库中选出用户可能感兴趣的物品作为排序模型的输入;排序是对召回的内容进行打分,按分值降序选出前top N个内容推荐给用户。本文分别从召回和排序两个部分对用户的行为序列建模。具体地,将本文的研究点定义为两个方面:一是设计了长期用户画像构建及多兴趣挖掘的召回算法模型,二是设计了基于用户长短期兴趣建模及自适应融合的排序算法模型。召回阶段研究用户行为序列建模时,提出了多兴趣召回网络(Multi-Interest Network for Recall,MINR)模型,通过用户长久的历史行为构建长期用户画像学习用户长期稳定的兴趣,通过用户近期交互的物品学习用户短期实时兴趣,实时兴趣也可以动态地反映出用户当前时刻兴趣变化的过程。长期用户画像的构建,主要从用户的基本属性和兴趣偏好两个角度出发。基本属性采用向量嵌入技术学习特征的表征,用户兴趣偏好通过对用户交互的物品序列进行抽象。构建长期用户画像时,设计了门控循环单元及物品向量表征网络(Gated Recurrent Unit and item to vector,GRUitem2vec)模型和基于权重游走的策略建模物品向量。学习用户短期兴趣时,设计了MINR模型,利用改进的胶囊网络将用户行为聚类,表征用户当前的多个兴趣点。通过以上两个方面,得到最终的用户兴趣表达。排序阶段研究用户行为序列建模时,提出了基于序列的长短期兴趣网络(Sequence based short-term and long-term interest networks,SBSLIN)模型,分别对用户长期兴趣和短期兴趣建模,再自适应地融合在一起。短期兴趣是用户在特定环境下产生的且一直处于动态变化中,但对当前的推荐有很大的影响,更能体现出用户当下的倾向,是把用户当前会话中的序列作为模型的输入。长期兴趣是用户长久以来形成的稳定偏好,更能体现用户固有的兴趣爱好,对模型预估起到兜底的作用,是把用户长期的点击序列按照会话划分后作为输入。SBSLIN模型同时兼顾用户的长短期行为,通过短期兴趣和长期兴趣相互结合,对候选物品预估,既考虑到用户固化的兴趣,又能捕获到用户近阶段动态兴趣的漂移。最后通过多组实验分别在快手数据集和电影数据集上验证了MINR和SBSLIN模型的性能,并对实验结果展开分析。本课题是依托在快手社科检索策略模型算法中心的实习工作进行的,设计的模型都应用到了快手生产线上并取得了收益。具体地,在大盘增益上,客户预期花费提升1.76%,消耗提升3.19%。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设驿站 ,原文地址:https://m.bishedaima.com/lunwen/54491.html