分享5篇关于深度Q网络的计算机专业论文

今天分享的是关于深度Q网络的5篇计算机毕业论文范文, 如果你的论文涉及到深度Q网络等主题,本文能够帮助到你

基于深度强化学习的股票和商业数据分析

这是一篇关于Q学习,布莱克-利特曼模型,深度Q网络,长短期记忆网络,投资组合,推荐系统的论文, 主要内容为社会发展的需求是生产力进步的必要因素,为解决现实问题,一大批新兴领域的研究逐渐进入大众视野,为首的就是量化金融和商业数据分析。它们都基于数学统计和计算机的相关知识,在金融和商业市场领域大放异彩,是多学科交叉应用的典型范例。强化学习作为机器学习模型的一种,同样也是数学统计和计算机结合的产物,其学习过程类似于人类学习新知,通过不断地试错以进行学习,经过一系列反馈后往往能优化结果,从而为现实问题制定出最优的建议或策略,让复杂的金融和商业问题变得迎刃而解。本文主要研究了深度强化学习(Deep Reinforcement Learning)在股票和商业数据分析中的应用,更进一步,研究了Q学习(Q-Learning)在投资组合中的应用以及深度Q网络(Deep Q Network,DQN)在推荐系统中的应用。Q学习在结合非线性的布莱克-利特曼模型(Black-Litterman Model,BLM)之后,利用简单移动平均(Simple Moving Average,SMA)信号和指数加权移动平均(Exponentially Weighted Moving Average,EWMA)信号,可以很好地分析道琼斯工业平均指数(Dow Jones Industrial Average,DJIA)和标准普尔500指数(Standard&Poor’s500,S&P 500)经历完整经济上行和下行周期时的走势,尤其是在利用指数加权移动平均信号分析标准普尔500指数的30组公司的股票市值时,该模型几乎能完美拟合。深度Q网络在结合长短期记忆(Long-Short Term Memory,LSTM)网络之后,利用长短期记忆网络控制信息流的门控优势替换了深度Q网络的卷积神经网络,解决了长序列训练过程中的梯度消失和梯度爆炸问题,也弥补了真实场景中传统推荐系统迭代优化不足的问题。在分析阿里巴巴的用户行为数据时,我们发现该方法不仅可以不断地迭代用户的反馈以获得更准确的推荐,还可以改善用户在网站使用过程中的体验。

基于强化学习的可解释推荐任务

这是一篇关于推荐系统,知识图谱,强化学习,深度Q网络的论文, 主要内容为随着信息技术的发展,网络信息量爆炸式增长,人们越来越依赖于通过互联网来获取信息。为了让人们能够更易于得到自己感兴趣的内容,推荐系统应运而生,可靠的推荐系统能够提升用户对产品的兴趣。目前研究人员用不同的方法实现项目推荐,强化学习也是推荐系统中使用的方法之一。在本文中,我们通过将强化学习与知识图谱相结合向目标用户推荐项目,并且为了提供更好的用户体验,我们添加了对于推荐项目的解释。推荐项目的解释是通过知识图谱中的推理路径实现的。已有的研究当中将知识图谱基于嵌入的方法和基于路径的方法分开使用,而在本文中我们提出了将两者结合,充分利用知识图谱。知识图谱本身有助于管理用户和项目的信息,本文使用Trans E算法用来得到实体和关系的嵌入。我们的方法KGDQN结合了知识图谱和强化学习,可以确定合适的推荐项目,我们在文章中定义了推理路径范例,路径范例作为合理的路径用于解释推荐项目,从知识图谱中获取推理路径范例后,找到从目标用户到推荐项目的推理路径。将路径输入KGDQN模型当中返回推荐项目的结果以及推荐的说明路径。在亚马逊数据集上进行的实验表明,KGDQN具有良好的性能。并且我们对不同的推理路径进行了比较,结果表明最短路径和元路径中的由三个购买关系连接的路径表现更好。

基于深度学习的多行为商品推荐模型研究

这是一篇关于多任务学习,多行为推荐,深度Q网络,深度学习,图神经网络的论文, 主要内容为随着电商市场规模的不断扩大,商品数量增长迅速,如何高效获取符合需求的商品成为电商商家和用户最关心的问题。商品推荐系统能自发寻找最符合用户偏好的商品,是解决电商平台“信息过载”问题的重要方法。随着用户需求与推荐模型结合更紧密,推荐性能也面临更高要求。如何进一步提升系统推荐准确度是学术界和工业界持续关注的问题。现有的基于深度学习的推荐算法大多只考虑单一类型的用户行为,忽略了用户浏览商品时可能发生的多种行为类型,如查看、添加购物车、购买等。这些不同行为包含大量有益于推荐的用户偏好信息。本文针对商品推荐中存在的多种交互行为数据设计推荐模型,主要包括三个工作:(1)为了细粒度考虑各种类型用户行为间的依赖关系,本文提出了一种将行为依赖融入多任务学习框架的多行为商品推荐模型,简称IBDM。IBDM模型为每种行为类型学习单独的交互函数,并根据实际情况引入门控机制来自适应的学习行为间的关系,同时为每种行为引入塔结构来输出用户在该行为下的预测值。在两个真实世界数据集上进行实验以验证IBDM模型的推荐效果,与经典的推荐模型进行对比,IBDM模型在HR和NDCG指标上均有提升。(2)为了更好的学习用户商品间的高阶交互信息,本文提出了一种基于关系图卷积网络的多行为商品推荐模型,简称RGCMB。RGCMB模型引入关系感知图卷积传播层,利用组合运算融合节点(用户节点和商品节点)与行为的特征表示,再结合图卷积网络实现用户商品多种交互行为间的高阶连通性。通过与其它几个多行为推荐方法进行对比,RGCMB模型在HR和NDCG指标上有明显的改善。(3)为了考虑用户的动态偏好,本文提出了一种基于深度Q网络融合长短期偏好的多行为商品推荐模型,简称ILSPDQN。ILSPDQN模型使用自注意力块从用户近期交互序列中捕获用户短期偏好表示,从用户属性和交互过的商品中捕获用户长期偏好表示,然后融合长短期偏好表示生成动态偏好,通过优化最大累计期望奖励值的方法来学习模型并给出推荐结果。在JData数据集上的实验表明,ILSPDQN模型优于其它的对比模型。