基于强化学习的POI对话推荐方法研究
这是一篇关于POI推荐,对话推荐,强化学习,自注意力网络,图卷积网络的论文, 主要内容为随着移动互联网的飞速发展以及大数据时代的来临,用户通过终端能获得的信息量爆炸式增长,产生了“信息过载”。为了从海量信息中挖掘到用户感兴趣的信息,推荐系统应运而生。其中,POI(Point of Interest)推荐是推荐系统中的重要场景。POI推荐旨在根据用户的历史交互序列,学习出更准确的用户兴趣表示,以便于向户推荐感兴趣的景点。但在现实生活中,历史交互序列无法反映出用户的当前动态偏好。而对话推荐可以通过对话收集用户动态偏好,能在一定程度上缓解此问题。由于强化学习通过模拟学习过程中的奖惩机制,能够做出更有长远收益的决策,可以更好地解决序列决策问题。目前很多工作将强化学习应用到对话推荐中,通过强化学习训练高效的对话策略,从而更快地获得用户的当前偏好信息,帮助做出更好的推荐。本文致力于研究如何通过合适的方式将用户历史交互序列融入对话推荐模型中,围绕时空信息与用户多兴趣信息展开探索,通过强化学习训练出高效的对话策略,实现更好的POI对话推荐。本文主要工作如下:(1)分析了当下POI推荐与对话推荐的研究背景和意义,及国内外研究现状,之后介绍了相关概念与深度强化学习等技术。(2)为了解决传统POI推荐方法无法获得用户动态偏好且现有对话推荐方法未考虑时空信息的问题,本文提出基于时空PG策略的POI对话推荐方法。该方法使用自注意力网络学习融合时空信息的嵌入表示。基于嵌入表示和用户交互序列设计融合时空信息的对话状态,通过强化学习中的策略梯度算法(Policy Gradient,简称PG)学习考虑时空信息的对话策略,基于强化学习的对话策略根据融合时空信息的对话状态选择对话动作,通过提问或推荐获得用户动态偏好,帮助进行准确的POI推荐。最后在两个真实数据集上进行实验,验证了模型的有效性。(3)对于POI对话推荐中的用户兴趣多样化问题,本文提出基于多兴趣与节点级AC策略的POI对话推荐方法。该方法通过图路径推理的方式进行对话推荐,基于自注意力网络和门控循环单元学习当前对话的用户偏好属性集合中的属性嵌入表示所表示的多个用户兴趣表示及其权重。将兴趣表示的加权平均输入强化学习中的Actor-Critic网络(简称AC网络)学习考虑用户多兴趣信息的细粒度对话策略。基于强化学习的细粒度对话策略根据兴趣表示的加权平均计算代表每个候选动作的图节点的执行概率,根据概率进行路径推理。从而进行更高效的对话与更准确的POI推荐。最后在两个真实数据集上进行实验,验证了模型的有效性。(4)为了学习用户、POI及属性之间的复杂关系并缓解兴趣表示中的噪声干扰,本文提出基于时空图卷积兴趣与权重去噪AC策略的POI对话推荐方法。该方法基于图卷积网络强大的表示能力获得融合时空信息的图嵌入表示,然后通过自注意力网络与门控循环单元获得多个融合时空信息的用户兴趣表示及其权重。仅将权重Top-k的时空兴趣表示输入强化学习中的Actor-Critic网络(简称AC网络)以去除低权重部分噪声,不同的时空兴趣表示输入不同的Actor-Critic网络中学习时空兴趣表示条件下候选动作的执行概率,对多个Actor-Critic网络进行强化学习训练,每次选择Top-k的时空兴趣表示条件下概率最大的动作进行对话。通过使用信息更丰富的图嵌入表示以及对时空兴趣表示的去噪获得更好的POI对话推荐效果。最后在两个真实数据集上进行实验,验证了模型的有效性。
基于对话的推荐方法研究
这是一篇关于对话推荐,序列推荐,交互式路径推理,注意力机制,门控机制的论文, 主要内容为传统的推荐系统利用用户历史交互数据来估计用户对项目的偏好,但现实中用户的偏好是随着时间推移而变化的。近年来,为解决其存在的这种信息不对称的问题,推荐系统开始采用交互式对话来获取用户对项目和属性的实时动态偏好,同时在一定程度上克服了传统静态推荐模型的冷启动和缺乏可解释性等问题的固有限制。然而目前的对话推荐系统还处于发展的初期,仍面临着不少挑战和难题。个性化问题:现有的对话推荐系统过于注重用户当前的偏好信息,更多地被设计成为类似搜索引擎的工具,缺乏推荐系统应有的个性化;反馈信息利用问题:用户在每个对话回合中反馈的信息并未被充分利用,一般作为独立的特征或实例对推荐模型进行更新训练,并未充分利用这些属性级和项目级的反馈之间蕴含的丰富关联关系。针对上述问题,本文结合深度学习技术和强化学习技术,基于对话推荐的方法开展了深入研究,主要的工作如下:针对个性化问题,提出一种与序列推荐相结合的对话推荐方法,该方法可以通过注意力机制从历史交互信息中提取出用户最近的短期兴趣,与其长期偏好相结合,得出候选项目集,然后将其应用于基于图路径推理的对话推荐系统的项目预测模块中,同时对话推荐中的路径选取操作也可以为序列推荐提供用户的当前偏好信息,二者相辅相成,产生更好的推荐效果。实验表明,该方法的各项评价指标优于现有对话推荐模型。针对反馈信息的充分利用问题,设计了两个门控模块,用来根据用户在线的属性级正反馈匹配项目级反馈、利用用户的属性级负反馈更新用户的原始嵌入,即采用细粒度的属性级反馈修正用户嵌入和粗粒度的项目级反馈,以此得到更完善的用户偏好表示。实验结果表明,该模型的性能优于当前效果最好的对话推荐系统中的用户偏好估计模型,并使得多轮对话推荐系统性能得以提升。
基于对话状态追踪的对话推荐研究
这是一篇关于对话推荐,对话状态追踪,对比学习,任务型对话系统的论文, 主要内容为对话推荐系统(Conversational Recommendation System,CRS)是一种以推荐任务为导向去进行多轮用户交互,逐步挖掘用户兴趣偏好的推荐系统。虽然在过去几年中,对话推荐相关研究在许多方面都取得了重大进展,但仍面临着以下几点挑战:1)对话语义提取能力不足,没有充分利用对话文本信息。现有的对话推荐算法简单的将对话信息通过编码器融入传统推荐模型中,对话处理过程粗糙且存在噪声,无法准确的提取用户偏好,导致推荐效果有限,对话生成能力不足;2)用户历史信息丢失,用户画像构建不精确。对话推荐系统以本次对话信息为研究对象,同一用户分开处理并每次生成全新的用户表示,没有充分利用用户的历史信息,进而导致“冷启动”问题。针对以上挑战,本文提出了基于对话状态追踪(Dialogue State Tracking,DST)的对话推荐方法。将推荐视为一种任务,尝试将任务型对话系统中的对话状态追踪技术,应用于对话推荐系统对话信息的语义提取中,以提高模型的推荐效果和对话生成能力。然而,直接将已有的对话状态追踪模型应用到对话推荐领域效果并不理想。对话推荐场景下,现有的对话状态追踪方法存在以下几个问题:1)对话状态追踪联合精度低,对话状态提取不理想。由于目前的任务型对话数据集在制作和标注过程中,存在人为主观的或者意外的标注结果,这些噪声对模型的训练会产生比较大的负面影响,尤其是在少样本分类领域,导致模型的联合精度低,对话推荐系统性能提升不明显;2)对话状态追踪效率不高,推理时间长。对话状态追踪方法采取整个对话历史信息作为模型输入,这种输入形式会随着对话的进行输入数据长度持续增加,进而使模型训练和推理计算量不断增大,存在很大的效率问题,而在对话推荐场景下,推荐的生成时间严重影响着用户体验。针对上述问题,本文提出了基于对比学习的对话状态追踪方法,可以有效促进对话推荐场景下对话文本信息的提取。综上,本文的研究工作主要包含以下三点贡献:(1)提出了基于对比学习的对话状态追踪方法。首先,为了提升对话推荐场景下现有对话状态追踪方法的联合精度,本方法将对比学习加入对话状态追踪训练中,通过聚合相同对话状态的共性特征,疏远不同对话状态的特性特征来提升模型的对话状态类型分类能力,并针对分类数据量少的样本类别进行数据增强,对数据量少的标注类别进行整合处理来提升模型对少样本分类数据的学习能力。其次,针对目前对话状态追踪效率不高的问题,本方法将对话状态追踪分解成两阶段的子任务:1)对话状态类型分类;2)对话状态生成。对于每个对话状态,先进行{NONE,DONTCARE,GEN}状态类型的分类,再对状态结果为GEN的对话状态进行对话状态生成。由于每轮对话只对部分对话状态进行对话状态生成,相较于现有对话状态追踪方法每轮对话全部对话状态生成,极大的提高了对话状态追踪效率。(2)提出了基于对话状态追踪的对话推荐方法。首先,为了解决对话推荐对话语义提取能力不足,没有充分利用对话文本信息的问题,本方法将推荐视为任务型对话系统的一项任务,引入对话状态追踪技术来增强对话推荐里对话文本信息的语义提取能力。其次,针对用户历史信息丢失,用户画像构建不精确的问题,本方法通过构建User Embedding矩阵来存储用户历史偏好,通过GCN和RGCN训练得到数据库中所有item和state的embedding,并在每次对话中通过语义统一模块动态调整其特征来融合用户的长短期兴趣。(3)本文的基于对比学习的对话状态追踪方法在当前学术界广泛使用的公开数据集MultiWOZ2.0和WultiWOZ2.1上进行了全面的实验,与其他先进方法相比,模型联合精度分别取得了2.15%~31.18%和3.28%~51.86%的绝对性能提升,并且推理效率提升了34倍。本文的基于对比学习的对话推荐方法在公开对话数据集ReDial上进行了广泛的实验,并与目前主流的对话推荐方法在推荐和对话模块进行了性能对比,实验证实了方法的有效性,对话推荐场景下模型的Recall@10提升了7.2%,对话生成的多样性Dist-2提升了35.9%。
基于对话状态追踪的对话推荐研究
这是一篇关于对话推荐,对话状态追踪,对比学习,任务型对话系统的论文, 主要内容为对话推荐系统(Conversational Recommendation System,CRS)是一种以推荐任务为导向去进行多轮用户交互,逐步挖掘用户兴趣偏好的推荐系统。虽然在过去几年中,对话推荐相关研究在许多方面都取得了重大进展,但仍面临着以下几点挑战:1)对话语义提取能力不足,没有充分利用对话文本信息。现有的对话推荐算法简单的将对话信息通过编码器融入传统推荐模型中,对话处理过程粗糙且存在噪声,无法准确的提取用户偏好,导致推荐效果有限,对话生成能力不足;2)用户历史信息丢失,用户画像构建不精确。对话推荐系统以本次对话信息为研究对象,同一用户分开处理并每次生成全新的用户表示,没有充分利用用户的历史信息,进而导致“冷启动”问题。针对以上挑战,本文提出了基于对话状态追踪(Dialogue State Tracking,DST)的对话推荐方法。将推荐视为一种任务,尝试将任务型对话系统中的对话状态追踪技术,应用于对话推荐系统对话信息的语义提取中,以提高模型的推荐效果和对话生成能力。然而,直接将已有的对话状态追踪模型应用到对话推荐领域效果并不理想。对话推荐场景下,现有的对话状态追踪方法存在以下几个问题:1)对话状态追踪联合精度低,对话状态提取不理想。由于目前的任务型对话数据集在制作和标注过程中,存在人为主观的或者意外的标注结果,这些噪声对模型的训练会产生比较大的负面影响,尤其是在少样本分类领域,导致模型的联合精度低,对话推荐系统性能提升不明显;2)对话状态追踪效率不高,推理时间长。对话状态追踪方法采取整个对话历史信息作为模型输入,这种输入形式会随着对话的进行输入数据长度持续增加,进而使模型训练和推理计算量不断增大,存在很大的效率问题,而在对话推荐场景下,推荐的生成时间严重影响着用户体验。针对上述问题,本文提出了基于对比学习的对话状态追踪方法,可以有效促进对话推荐场景下对话文本信息的提取。综上,本文的研究工作主要包含以下三点贡献:(1)提出了基于对比学习的对话状态追踪方法。首先,为了提升对话推荐场景下现有对话状态追踪方法的联合精度,本方法将对比学习加入对话状态追踪训练中,通过聚合相同对话状态的共性特征,疏远不同对话状态的特性特征来提升模型的对话状态类型分类能力,并针对分类数据量少的样本类别进行数据增强,对数据量少的标注类别进行整合处理来提升模型对少样本分类数据的学习能力。其次,针对目前对话状态追踪效率不高的问题,本方法将对话状态追踪分解成两阶段的子任务:1)对话状态类型分类;2)对话状态生成。对于每个对话状态,先进行{NONE,DONTCARE,GEN}状态类型的分类,再对状态结果为GEN的对话状态进行对话状态生成。由于每轮对话只对部分对话状态进行对话状态生成,相较于现有对话状态追踪方法每轮对话全部对话状态生成,极大的提高了对话状态追踪效率。(2)提出了基于对话状态追踪的对话推荐方法。首先,为了解决对话推荐对话语义提取能力不足,没有充分利用对话文本信息的问题,本方法将推荐视为任务型对话系统的一项任务,引入对话状态追踪技术来增强对话推荐里对话文本信息的语义提取能力。其次,针对用户历史信息丢失,用户画像构建不精确的问题,本方法通过构建User Embedding矩阵来存储用户历史偏好,通过GCN和RGCN训练得到数据库中所有item和state的embedding,并在每次对话中通过语义统一模块动态调整其特征来融合用户的长短期兴趣。(3)本文的基于对比学习的对话状态追踪方法在当前学术界广泛使用的公开数据集MultiWOZ2.0和WultiWOZ2.1上进行了全面的实验,与其他先进方法相比,模型联合精度分别取得了2.15%~31.18%和3.28%~51.86%的绝对性能提升,并且推理效率提升了34倍。本文的基于对比学习的对话推荐方法在公开对话数据集ReDial上进行了广泛的实验,并与目前主流的对话推荐方法在推荐和对话模块进行了性能对比,实验证实了方法的有效性,对话推荐场景下模型的Recall@10提升了7.2%,对话生成的多样性Dist-2提升了35.9%。
基于用户意图理解的对话推荐方法研究与实现
这是一篇关于对话推荐,强化学习,自注意力,图神经网络的论文, 主要内容为推荐系统是互联网快速发展的产物,它可以帮助用户在信息过载的情况下从项目池中寻找满足偏好的项目。由于传统的推荐系统是利用交互历史来估计用户意图,因此这种静态方法存在无法捕获兴趣漂移、只能被动获取用户偏好等缺陷,这些限制不可避免地影响了推荐系统的性能,而通过在推荐系统中引入对话可缓解上述问题。本文致力于研究对话推荐方法,即主动与用户进行对话来动态捕获用户偏好,最终实现在有限轮次内向用户推荐合适的项目,因此如何找到一个好的对话策略并充分理解用户意图是对话推荐面临的重要问题。本文的主要研究工作如下:(1)分析当下对话推荐方法的发展背景和意义,以及国内外研究现状,之后具体介绍了相关概念和技术。(2)为了能在对话中充分利用用户历史交互信息,本文设计了考虑用户历史项目交互序列的对话推荐方法,即首先通过自注意力网络和前反馈网络建模用户交互序列来学习用户偏好,然后通过强化学习与用户进行多轮对话来更新用户意图并学习到合适的的对话动作,实现项目推荐,其中将对话历史和候选项目数量作为强化学习的状态输入。最后在数据集上利用成功率和平均轮次数指标证实了其有效性。(3)为了充分利用对话信息,实现细粒度的用户意图理解。本文通过图神经网络得到实体嵌入表示,然后利用门控处理属性级和项目级反馈来修正用户嵌入,为了提高强化学习性能,本文限制了动作空间大小,同时将用户接受的属性通过图卷积网络、Transformer和平均池之后作为强化学习的状态。最后在数据集上进行实验,该方法得到了更高的成功率和更低的平均轮次数,并实现了较好的目标项目排名。(4)基于提出的两种方法,本文实现了一个电影对话推荐系统,该系统通过对话来更新和理解用户意图,向用户提供个性化推荐服务。
基于强化学习的POI对话推荐方法研究
这是一篇关于POI推荐,对话推荐,强化学习,自注意力网络,图卷积网络的论文, 主要内容为随着移动互联网的飞速发展以及大数据时代的来临,用户通过终端能获得的信息量爆炸式增长,产生了“信息过载”。为了从海量信息中挖掘到用户感兴趣的信息,推荐系统应运而生。其中,POI(Point of Interest)推荐是推荐系统中的重要场景。POI推荐旨在根据用户的历史交互序列,学习出更准确的用户兴趣表示,以便于向户推荐感兴趣的景点。但在现实生活中,历史交互序列无法反映出用户的当前动态偏好。而对话推荐可以通过对话收集用户动态偏好,能在一定程度上缓解此问题。由于强化学习通过模拟学习过程中的奖惩机制,能够做出更有长远收益的决策,可以更好地解决序列决策问题。目前很多工作将强化学习应用到对话推荐中,通过强化学习训练高效的对话策略,从而更快地获得用户的当前偏好信息,帮助做出更好的推荐。本文致力于研究如何通过合适的方式将用户历史交互序列融入对话推荐模型中,围绕时空信息与用户多兴趣信息展开探索,通过强化学习训练出高效的对话策略,实现更好的POI对话推荐。本文主要工作如下:(1)分析了当下POI推荐与对话推荐的研究背景和意义,及国内外研究现状,之后介绍了相关概念与深度强化学习等技术。(2)为了解决传统POI推荐方法无法获得用户动态偏好且现有对话推荐方法未考虑时空信息的问题,本文提出基于时空PG策略的POI对话推荐方法。该方法使用自注意力网络学习融合时空信息的嵌入表示。基于嵌入表示和用户交互序列设计融合时空信息的对话状态,通过强化学习中的策略梯度算法(Policy Gradient,简称PG)学习考虑时空信息的对话策略,基于强化学习的对话策略根据融合时空信息的对话状态选择对话动作,通过提问或推荐获得用户动态偏好,帮助进行准确的POI推荐。最后在两个真实数据集上进行实验,验证了模型的有效性。(3)对于POI对话推荐中的用户兴趣多样化问题,本文提出基于多兴趣与节点级AC策略的POI对话推荐方法。该方法通过图路径推理的方式进行对话推荐,基于自注意力网络和门控循环单元学习当前对话的用户偏好属性集合中的属性嵌入表示所表示的多个用户兴趣表示及其权重。将兴趣表示的加权平均输入强化学习中的Actor-Critic网络(简称AC网络)学习考虑用户多兴趣信息的细粒度对话策略。基于强化学习的细粒度对话策略根据兴趣表示的加权平均计算代表每个候选动作的图节点的执行概率,根据概率进行路径推理。从而进行更高效的对话与更准确的POI推荐。最后在两个真实数据集上进行实验,验证了模型的有效性。(4)为了学习用户、POI及属性之间的复杂关系并缓解兴趣表示中的噪声干扰,本文提出基于时空图卷积兴趣与权重去噪AC策略的POI对话推荐方法。该方法基于图卷积网络强大的表示能力获得融合时空信息的图嵌入表示,然后通过自注意力网络与门控循环单元获得多个融合时空信息的用户兴趣表示及其权重。仅将权重Top-k的时空兴趣表示输入强化学习中的Actor-Critic网络(简称AC网络)以去除低权重部分噪声,不同的时空兴趣表示输入不同的Actor-Critic网络中学习时空兴趣表示条件下候选动作的执行概率,对多个Actor-Critic网络进行强化学习训练,每次选择Top-k的时空兴趣表示条件下概率最大的动作进行对话。通过使用信息更丰富的图嵌入表示以及对时空兴趣表示的去噪获得更好的POI对话推荐效果。最后在两个真实数据集上进行实验,验证了模型的有效性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码海岸 ,原文地址:https://m.bishedaima.com/lunwen/56353.html