5篇关于强化学习的计算机毕业论文

今天分享的是关于强化学习的5篇计算机毕业论文范文, 如果你的论文涉及到强化学习等主题,本文能够帮助到你

融合时域网络与蒙特卡洛树搜索的知识图谱补全模型研究

这是一篇关于强化学习,知识图谱,蒙特卡洛树搜索,时域卷积网络,知识补全的论文, 主要内容为社交网络,知识图谱等在大数据时代都变得至关重要,然而,与图片和视频等欧几里得式数据不同,交错复杂的非欧几里得式结构数据面始终具有特征提取困难的问题,复杂的数据交互形式和庞大的数据体量,使得对网络结构数据的挖掘和分析变得相对困难。传统的网络结构数据挖掘通常采用表示学习方法,即将网络中的节点和关系获得嵌入向量,向量的方向和模长均具有表示意义。另外,随着强化学习方法的兴起,出现了将强化学习模型应用于网络结构数据处理数据挖掘任务。本文面向知识图谱以强化学习视角对数据分析与挖掘,其中一个主要问题是知识图谱实体补全问题。因此,本文以知识图谱补全任务入手,其任务表述为给定初始实体和该实体相关的关系,补全出关系对应的目标实体,构成完整的(头实体,关系,尾实体)三元组。该任务可应用于知识图谱补全,问答系统,推荐等诸多下游任务。本文将补全任务过程形式化定义为马尔科夫过程,采用强化学习思想学习解决补全问题,其中的网络特征提取与策略学习方法能够适应多种任务。首先,本文详细定义了知识图谱补全任务的马尔科夫过程,明确了过程四要素即状态空间、动作空间、转移函数和回报函数,进而使得该过程能够以强化学习方式对任务目标学习。然后,本文构建深度智能体网络(Graph-Agent,GA)用以学习环境中的不同状态下的动作决策策略,其中针对状态的序列化问题提出基于时域卷积网络的状态特征提取层网络;针对不同状态下动作空间不定问题提出基于共享参数的完全动作空间映射和灵活的策略层网络,共同组成完整的强化学习中的深度智能体网络。深度智能体网络对于环境的探索过程采用智能体决策结合蒙特卡洛树搜索方式以获取训练数据,解决了图结构数据上游走采样的低回报率问题,并采用轨迹存储池和离策略训练智能体对补全模型进行更新。最终,模型的预测阶段采用与探索过程相似的Q值结合蒙特卡洛树搜索方式,对搜索结果以加权评分排序。实验在NELL995的十个关系数据集和WN18RR数据集上进行,并采用平均倒数排名(MRR),HITS@K,平均精度均值(MAP)等信息检索评估算法,对模型效果进行验证,同时与目前在该任务上常用的三类算法中的经典算法进行比较,并对模型的可解释性进行了一定分析。模型中状态编码网络的训练速度相较于循环神经网络模型有着较大的提升。实验结果表明,在NELL995的十个关系数据集上预测的平均MAP达到89.9%,在WN18RR数据集上预测的MRR达到43.5%,模型的评估在部分任务上取得了与其他方法接近的效果,在多个补全任务上取得最优的效果。

面向蜂窝D2D通信的资源优化算法研究

这是一篇关于蜂窝网络,资源分配,端到端通信,车到车通信,聚类,强化学习的论文, 主要内容为频谱资源稀缺与移动设备数量快速增长之间的矛盾是下一代蜂窝网络亟待解决的一大难题。设备与设备间(Device to Device,D2D)通信技术通过复用蜂窝网络频谱资源实现相邻用户直接通信而不需要接入基站,因而可以缓解蜂窝网络频谱压力,提高传输速率,降低能耗。当D2D用户复用蜂窝频谱资源时,不可避免地会对蜂窝网中的其他用户产生干扰,从而限制了性能的进一步提升。因此,如何设计高效的资源优化方案,提高频谱效率并减少用户间干扰,成为了高质量D2D通信的关键。作为D2D通信在车联网中的应用,车辆到车辆间(Vehicle to Vehicle,V2V)通信技术在车联网安全领域中有着重要的作用,同时也面临着延迟和可靠性要求的挑战。本文重点关注面向蜂窝D2D通信的资源优化算法,主要研究工作如下:首先,本文提出了一种基于强化学习(Reinforcement Learning,RL)的D2D通信资源优化方案。该方案将用户分为与基站直接进行通信的蜂窝用户设备(Cellular User Equipment,CUE)和使用D2D通信的D2D用户设备(D2D User Equipment,DUE),并采用了基于策略梯度的Actor-Critic强化学习算法。在该算法中,状态定义成CUE的信噪比(Signal to Interference plus Noise Ratio,SINR)和D2D用户的通道选择参数,动作描述为信道数量以及每个用户的发射功率,奖励函数则是每个用户在采取行动后获得的吞吐量。Actor遵循基于参数的随机策略来给出连续的动作,而Critic则对策略进行估计并评估Actor的动作。仿真结果表明该算法相较于其他对比算法在吞吐量上具有明显的优势。其次,本文提出了一种车载网络(Vehicular ad hoc networks,VANETs)中V2V通信的资源优化方案。该场景中,V2V用户设备(V2V User Equipment,VUE)复用CUE的上行链路频谱资源。所提方案通过使用模糊聚类算法将属性值差异较大的VUE划分为不同的簇,以减少干扰,然后将频谱共享问题建模为加权三维匹配问题,并提出了一套资源分配算法兼顾性能与可靠性。结果表明,该方案在保证VUE通信链路可靠性的同时,最大化了CUE的速率。

基于深度学习的学术论文个性化推荐方法研究

这是一篇关于推荐系统,知识图谱,自注意力机制,强化学习,图卷积神经网络的论文, 主要内容为在互联网飞速发展的时代背景下,学术论文的发文率急剧上升,用户所面临的论文信息过载问题也越来越严重。因此,将学术论文进行个性化推荐成为解决这一问题的一种行之有效的方法。虽然有很多学者都正在致力于研究如何提高个性化推荐的效率,但目前的推荐系统还面临着大量的问题,例如,稀疏的数据容易造成过拟合,没有大量用户数据的情况会影响推荐结果的准确性,以及如何使推荐结果多样化等。针对以上问题,本文提出了基于深度学习的论文推荐模型,主要研究内容如下:首先,本文提出一种基于协同知识图的残差自注意力机制模型(Self-attention and Residual mechanism hybrid model based on Collaborative Knowledge Graph,CKGSR)。该模型利用Bi-LSTM网络得到全面的论文表示;为了得到更深层次的用户阅读偏好,采用残差自注意力机制的方法,对用户的邻域节点进行加权运算;利用双交互聚合方式对用户的邻域特征表示进行融合,并使用多层感知器对用户与论文之间的相关性进行分析计算,最终得出了相应的推荐结果。这种方法能够衡量出用户对不同论文的偏好,从而实现对用户的个性化推荐,并增强推荐的可解释性。其次,将图卷积神经网络应用到CKGSR中,提出一种基于CKGSR的图卷积网络模型(Graph Convolutional Network model based on CKGSR,CKGSRN),实现了CKG中的节点和关系的加权高阶传播与聚合,最后形成新节点向量,该节点包含图中的邻域知识信息。新的节点包括了用户的潜在偏好、论文的潜在属性等,从而在保证获得全面的用户和论文特征的同时,还有助于提升推荐的多样性。最后,在以上模型的基础上,为了寻找最优的推荐策略,提出一种融合协同知识图与图卷积神经网络的深度Q网络模型(Deep Q Network model based on Collaborative Knowledge Graph and Graph Convolutional Network,CKGND)。该模型利用初始价值模块,对推荐系统进行强化训练然后进行初始化,降低了早期的冷启动对用户的影响;引入深度Q网络,通过对各模块进行训练,以做出策略最优解。这种方法能够有效提高推荐系统中用户的体验。通过在Cite ULike-a和Cite ULike-t数据集上进行对比实验,发现本文提出的模型能够在HR、NDCG和MRR指标值上,比基于协同过滤、知识图谱和强化学习等经典推荐模型表现更好。

基于强化学习的图对抗攻击算法研究

这是一篇关于图数据,图对抗攻击,图神经网络,对抗样本,强化学习,鲁棒性的论文, 主要内容为将深度学习模型应用于图数据之上,已经在很多图相关任务领域中表现出了优异的性能,例如社交网络和知识图谱等。但研究表明,与其它经典深度神经网络一样,当图神经网络的输入图数据中包含精心构造的对抗扰动时,模型性能会大幅度下降,这类含有恶意扰动的图数据被称之为对抗样本,构造对抗样本用于攻击图神经网络的过程就是图对抗攻击。现有图对抗攻击通常通过直接修改原始图的全局拓扑结构来构造对抗样本,但这种修改会改变图中重要的拓扑特性,容易被检测系统所察觉,因此在多数现实应用中并不可行。同时很多高性能的攻击方法假设攻击者能够获取目标模型的架构、梯度和参数等完整信息,但在现实场景中,往往无法获取目标模型的详细信息。针对上述问题,本文从以下两个方面进行了研究:(1)为了避免对抗攻击导致原始图中的拓扑结构信息被修改,提出了一种基于强化学习的单节点注入攻击算法(Single Node Injection Attack,SNIA),通过伪造具有虚假特征的虚假节点,并将其连接到图中的真实节点上。插入新节点的攻击策略可以在不改变图中现有连接结构的基础上达到攻击图神经网络模型的目的。同时为了确保虚假节点能够绕过检测系统不被目标模型所察觉,借鉴了生成对抗网络的原理,通过在SNIA模型中引入鉴别网络来达到生成的虚假节点与原始节点具有相似特征的目的。SNIA将添加虚假节点的过程建模为马尔科夫决策过程,其中当前图结构表示状态,选择节点作为动作,并使用强化学习算法评估每个动作以生成对抗样本。经过实验证明,SNIA所得到的对抗样本能够使得目标图卷积网络模型的误分类率达到80%左右,同时可以用于攻击多种不同类型的图神经网络模型。(2)为了进一步提高扰动的不可察觉性,本文考虑了更加受限的实际攻击场景,提出了基于强化学习的单节点对抗攻击(Single Node Adversarial Attack,SNAA),SNAA仅通过修改图中目标节点的一阶邻居节点特征来构造扰动。SNAA首先将修改节点特征的过程建模为马尔科夫决策过程,使用当前图表示状态,动作为修改节点特征,然后使用基于Actor-Critic框架的强化学习算法评估每个动作以生成扰动。并且为了进一步提高扰动的效率,研究了多种选择被攻击节点的方法。通过在多个数据集上进行实验,表明了SNAA能够对各种图神经网络实施有效的攻击;对比多种基线算法表明,攻击单个节点的特征比攻击单条边更加有效。本论文所提出的两种图对抗攻击算法均属于间接攻击,即并不直接攻击目标节点,这种攻击策略在物理世界中更具实用性,因为攻击者通常只能操纵自己的节点。使用本文所提出的攻击算法得到的对抗样本,利用对抗学习框架训练鲁棒性图神经网络模型。实验结果表明,对抗训练后的模型对对抗性扰动表现出一定程度上的防御能力。通过对图数据上对抗攻击算法的研究,能够了解图神经网络在面对恶意攻击时的鲁棒性,从而进一步提高模型的可解释性,推动图神经网络能够应用于更广泛的领域。

基于强化学习的个性化试题推荐系统的研究与实现

这是一篇关于推荐系统,知识追踪,强化学习,迁移强化学习的论文, 主要内容为近年来,随着人工智能、移动互联网技术的高速发展,智慧教育取得了长足进步,基于数据的个性化自适应学习成为当今学术界和教育界共同关注的热点问题。智慧教育作为新时代下的教育产物逐渐走入教育舞台中央,走进人们的生活当中。在网络信息资源日益庞大的今天,对于教育受众而言,海量学习资源使其疲于高效选择,对于社会而言,满足用户个性化教育需求显得尤为重要。当前,为了满足用户的教育需求,推荐系统和推荐技术作为个性化教育资源推荐工具,以习题、课程等为主要内容进行推荐,引导用户学习。然而,目前的推荐系统大多基于内容、协同过滤等静态方法,无法捕捉到足够的用户偏好信息,并且存在数据稀疏性、冷启动等问题,也无法根据用户与推荐系统之间的交互进行实时的反馈并更新推荐策略,这些问题影响了推荐系统的有效性和准确性,使其缺乏灵活性和动态性,无法有效地满足用户的长期需求。同时,现有的强化学习推荐系统中,大都是利用点击记录、商品的点击通过率等交互反馈数据进行强化学习训练,缺乏对用户自身的认知水平的考量。此外,强化学习用于推荐项目时,目前都是通过人工定义智能体的奖励函数,然而对于推荐系统来说统一的奖励定义并不能准确地反映出用户的满意度,未能考虑到奖励的差异化,故而需要针对具体用户的认知诊断结果等信息来个性化定义奖励。本文基于此提出一种基于强化学习的个性化试题推荐模型,旨在通过利用强化学习等技术使教育资源最大程度与用户匹配,考虑到学习者自身的知识水平状态,精准满足用户个性化需求,从而引导其动态学习,并且该技术聚焦于学习者学习效果的长期提升。具体工作如下:(1)利用DKT等知识追踪模型针对学生当前知识状态建模,将整个推荐过程建模为马尔可夫决策过程,即对学生的下一次推荐过程仅与当前学生知识状态有关。同时,通过个性化奖励定义,将智能体探索奖励抽象为当前个人知识状态下的奖励表现形式。综上,通过将深度学习的感知能力与强化学习的决策能力有机结合,将强化学习推荐方法融入到学生的学习过程中,实现学生持久性、长期性知识水平和学习能力的提升。(2)优先采用经验回放机制,利用迁移强化学习等知识,提出了一种基于实例的局部迁移方法,针对目标学生进行基于实例的推荐序列迁移,即有选择地重用从源任务中收集的迁移或轨迹样本的实例,对此,最优推荐序列是不同的,但会有共同的最优子序列对应于特定的学习阶段,故不迁移整个轨迹,而是迁移局部轨迹,以改善目标任务学习的初始化效果或者加快其学习速度,节省了用户线上探索不必要的环境代价。(3)分别针对学生端及教师端的不同需求进行详细分析,设计出系统的总体架构及各模块功能。采用B/S架构,运用Python语言及Django框架进行系统后端的开发,使用My SQL数据库、Redis、文件系统等方式进行数据存储。根据各功能模块的详细设计,使用Py Torch、Numpy等第三方框架将上述关键技术(1)(2)应用到系统当中。针对上述关键技术,设计并完成了一系列实验,实验结果表明,使用结合用户知识状态的强化学习推荐模型能够更好地捕捉学习者偏好,并且能够有效地进行策略学习。相对于其他推荐模型包括强化学习推荐模型,本文的工作更加有效、表现更好,能够聚焦于学习者学习效果的长期提升。同时,结合局部推荐序列迁移的方法能够使强化学习推荐模型效果更优。最后,经过系统功能测试,本文设计的系统实现了预期的目标,满足了智慧教育受众的多样化需求。

本文内容包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主题。发布者：代码工坊，原文地址：https://m.bishedaima.com/lunwen/46221.html