5篇关于多智能体强化学习的计算机毕业论文

今天分享的是关于多智能体强化学习的5篇计算机毕业论文范文, 如果你的论文涉及到多智能体强化学习等主题,本文能够帮助到你

基于强化学习的空地一体化异构网络资源优化研究

这是一篇关于空地一体化异构网络,卸载决策,资源分配,多智能体强化学习,UAV轨迹优化的论文, 主要内容为空地一体化异构网络(Air-Ground Integrated Heterogeneous Network,AGIHN)是以地面网络为基础,融合空基网络独特优势而构成的新兴异构信息网络,能够有效满足海量终端的泛在接入与差异化服务需求。然而,空地一体化异构网络拓扑更新频繁、节点动态变化,这对网络多维资源(如通信、计算资源)的联合优化带来了空前严峻的挑战。如何进行有效的资源管理,实现网络性能的智能优化与资源效能的充分提升是目前亟待解决的关键性问题。与此同时,随着人工智能技术在无线通信领域的广泛应用,深度强化学习算法在决策调度方面展现出巨大的潜力,为突破上述关键性问题开拓了新的思路。基于以上背景和动机,本文对空地一体化异构网络的任务卸载与资源优化问题展开深入研究,主要工作内容有:第一,针对网络多维资源的联合优化问题,设计空地一体化异构网络模型,其中多架无人机(Unmanned Aerial Vehicle,UAV)与地面基站(Ground Base Station,GBS)可以协同地为用户终端提供边缘计算服务。进而,以最小化系统能耗为目标,构建了一个联合卸载决策与资源分配的优化问题。为了高效求解该混合整数非线性规划问题,首先,提出基于深度Actor-Critic的在线计算卸载(Deep Actor-Critic based Online Offloading for AGIHN,DACO2A)算法,通过智能体终端与空地一体化网络环境的交互训练深度神经网络,动态优化终端的任务卸载决策。其次,将多维资源分配问题重新描述为一个凸差(Difference of Convex,DC)规划问题,采用凹凸过程(Convex-Concave Procedure,CCP)法获得功率控制与计算资源分配策略。最后,开展大量仿真实验评估所提方法的性能,结果表明所提方案与基准算法相比,用户设备能耗可降低7.26%、17.23%以及23.14%。第二,在前述工作内容基础上,重点针对空基平台轨迹与网络资源的协同优化问题,通过部署高空平台站(High Altitude Platform Station,HAPS)与UAV,为现有地面网络覆盖范围以外的偏远地区物联网终端提供通信接入与边缘计算服务。特别的,进一步考虑UAV轨迹的可规划性,以充分发挥空基网络覆盖灵活、按需部署的优势。具体而言,构建了一个UAV轨迹优化、设备卸载决策与边缘计算资源分配的联合优化问题,最小化空地一体化网络的系统成本。由于网络环境的强动态性与系统状态信息的不可预测性,已有的优化方法无法直接对其求解。为此,本论文将优化问题建模为马尔可夫决策过程,并提出一种基于多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)的UAV轨迹与网络资源协同优化算法,通过集中式训练、分布式执行架构有效促进智能体之间的协作。同时,训练完备的UAV与终端能够仅根据本地观测信息,执行轨迹规划与资源分配决策。仿真结果表明,所提方法能够实现网络能耗与任务执行时延的合理权衡,并通过UAV轨迹与网络资源的协同优化显著降低系统成本。所提方案的性能分别优于基线算法6.98%、18.37%以及32.78%。

2对2三国杀强化学习算法研究与平台实现

这是一篇关于人工智能,多智能体强化学习,纸牌类游戏AI博弈,2对2三国杀游戏,算法游戏平台的论文, 主要内容为多智能体强化学习是人工智能研究重要问题之一,在围棋、德州扑克等典型牌类游戏中结合博弈论取得了突破性进展。三国杀是一款包含实时策略、合作竞争等特点的热门纸牌类博弈游戏,其游戏环境可用于强化学习算法研究,更好地进行对战过程中的学习与智能决策。但对于三国杀游戏的研究现仅限于游戏开发,多智能体领域存在的问题限制了该类方法在三国杀游戏的应用研究。本文设计包含基本玩法的2对2三国杀游戏环境,以强化学习方法为基础,针对多智能体领域有效信号决策与稀疏奖励问题,引入一种基于值分解的2对2三国杀多智能体强化学习博弈算法,最后实现了2对2三国杀游戏对战平台。主要工作如下:(1)基于值分解的2对2三国杀多智能体强化学习算法SGS-VDMA。在2对2三国杀游戏中,即多智能体环境中,如何针对四个智能体的动作与状态进行建模,使智能体能够有效通信,并解决稀疏奖励问题是算法的设计难点。为了解决上述问题,本文提出一种强化学习算法SGS-VDMA,基于Actor-Critic框架进行网络设计,将动作价值评估改为状态价值评估,对状态价值进行分解,使多个智能体在环境中进行决策,并基于智能体之间的协作意愿生成内部奖励,解决稀疏奖励问题。根据基本的游戏规则构建了2对2三国杀游戏环境,并在环境中实现了多智能体强化学习算法SGS-VDMA用于同一阵营的智能体决策,并与敌方阵营使用的几种常用强化学习博弈算法COMA、MAPG、Single＿AC以及Random随机方法对比实验,结果表明该方法优于其它决策方法:经过多次训练与测试,使用SGS-VDMA算法的阵营与采用其他决策方法的阵营相比,能够获得更高的团队奖励值,且胜率比敌方阵营高出至少6%。(2)基于网页开发等技术实现了2对2三国杀游戏对战平台。基于网页开发等技术设计并实现了2对2三国杀游戏对战平台,用户能够在可视化场景中进行人机、算法(机机)对战,平台提供简易的接口用于学者上传自定义算法,在该平台的游戏环境中进行训练与测试,且能对本地算法库中的强化学习算法与对战训练产生的数据进行管理。

基于多智能体通信协作的路径规划算法研究

这是一篇关于多智能体路径规划,多智能体强化学习,通信学习,优先级,大规模的论文, 主要内容为随着网络电商和物理行业的兴起,基于自动引导小车(Automated Guided Vehicle,AGV)的无人仓储也逐渐得到了广泛应用,三代ASRS智能仓储系统和KIVA系统都是依托AGV实现货物的分拣。无人仓储场景中所有的AGV可以构成一个典型的多智能体系统,AGV调度过程可以被建模为经典的多智能体路径规划问题。具体而言:每个智能体有其对应的唯一目的地,算法需要为每个智能体规划到达目的地的最优路径,同时必须满足智能体移动过程中彼此之间不发生碰撞的约束条件。经典的多智能体路径规划算法(如ODr M*等)是基于A*的中心化搜索算法,但当问题规模上升或者遭遇非平稳环境,这类静态规划方法会面临计算开销过大以及需要多次重复规划的问题,其可扩展性较弱。因此学术界和工业界越发倾向于寻求去中心化的动态策略,此策略能够根据当前时刻的局部观测信息,动态地输出下一时刻的移动行为。近年来也有不少基于去中心化多智能体强化学习的路径规划相关工作,但目前主流的算法存在如下三个共同的问题:1)去中心化的规划结果相比最优规划结果仍存在提升空间;2)去中心化决策导致的冲突难以避免,基本采用人为的后处理进行避让;3)在大规模场景下路径规划算法的相关训练十分耗时且困难。针对以上问题本文的工作如下:1.针对去中心化路径规划策略与通信机制的结合作用,本文设计了通用的通信多智能体强化路径规划算法,并实验对比了不同通信设计对于寻路策略的影响,为后续的工作提供理论和实验基础。2.针对智能体之间的冲突问题,本文提出了结合优先级通信的多智能体强化学习方法(Pr Ioritized COmmunication learning method,PICO)。通过从专家策略中学习优先级信息,学习整体最优的优先级分配,并以此优先级信息为指导构建动态的去中心化拓扑通信架构,从而实现具有协作避让能力的通信学习。3.针对大规模场景下的挑战,本文在PICO算法的基础上引入平均场的思想,将大规模测试场景下的观测信息分布近似成小规模训练场景下的观测信息分布,使得小规模场景训练得到的策略能够适用于大规模测试环境。同时采用大规模强化学习框架MAgent优化推理效率。最终通过实验验证算法性能在大规模测试场景下依然能够有稳定的表现。本文在二维网格化的场景下进行相关算法的训练和测试,并尝试了多种障碍物密度和智能体数量的设置。实验结果表明本文所提出的算法相关性能指标优于其余基线方法,同时能够保证更低的碰撞率以及更好的可扩展性。

基于多智能体深度强化学习的协同策略生成技术研究及实现

这是一篇关于多智能体协作,价值分解,多智能体强化学习,注意力机制,图网络的论文, 主要内容为多智能体协作是人工智能领域中的一个重要问题。多智能体协作技术可以广泛应用于交通灯控制、自主车辆协调、资源管理等应用当中,能够为这些应用任务的实现提供有效支撑。目前,越来越多的科研学者使用多智能体深度强化学习算法来解决多智能体协作问题。在多智能体深度强化学习领域中,多智能体协作问题主要面临着两个挑战:其一是如何在具有部分可观察性的环境中实现智能体之间的相互理解,从而准确判断场上形势并做出最佳决策;其二是如何在只有稀疏奖励的多智能体环境中按照每个智能体所做出的协作贡献合理分配奖励。本文针对对抗场景下的多智能体协作问题展开研究,提出了富有感知力的行动者(Attention-Aware Actor,Tri-A)算法,以及基于图网络的价值分解(Graph Value Decomposition,GVD)算法,并在此基础上进行了原型系统的构建以及研究成果的实验验证。本文的贡献包括以下三点:(1)针对现有方法难以在通信受限且具有部分可观察性的环境中实现智能体之间的相互理解的问题,提出了一个富有感知力的行动者模型。该模型基于集中训练分布执行下的行动者-评判者(Actor-Critic,AC)框架,从智能体自身视角出发,利用视线范围内所观察到的周围智能体的情况进行多智能体相互作用图(Co Co-Graph)的构建,并基于此图重构出具有协作(或攻击)倾向的观察值,而后智能体基于这个重构的观察值进行决策,生成具有协作(或攻击)倾向的动作。该方法仅在智能体的行动者模型中进行改进,可以作为插件插入到任何使用AC框架的多智能体深度强化学习算法当中,提升智能体的决策能力。(2)针对稀疏奖励环境下的信用分配问题,提出了一种基于图网络的价值分解算法,该算法利用多智能体在分布式执行阶段的交互动态将智能体之间的联系建模成一个两层图架构,它能够揭示我方智能体对于攻击敌方智能体所做出的贡献以及每一时刻我方智能体攻击敌方智能体的优先级。在这个两层图架构基础上构建图价值分解网络,将智能体的个体价值融合形成集体价值,并通过反向更新过程训练每个智能体的行动策略,真正实现按劳分配,合理进行信用分配。(3)基于上述研究成果,设计并实现了一个基于多智能体深度强化学习算法的多智能体协作原型系统,并在SMAC开源的星际争霸多智能体强化学习测试平台中对本课题的研究成果进行了实验验证。实验结果表明,相比于现有的方法,本文所提出的模型和算法能够明显提升多智能体系统的协作性能及学习速度。

基于机器学习的多小区协作波束赋形算法研究

这是一篇关于协作波束赋形,功率分配,监督学习,无监督学习,多智能体强化学习的论文, 主要内容为为了应对日益增长的无线流量和高速连接需求,无线通信系统不断开拓更高的频段如毫米波、太赫兹频段等,同时也利用各种先进技术来提高现有频段的频谱效率。其中,大规模天线阵列被认为是提高频谱效率最行之有效的技术[1],而波束赋形正是实现大规模天线阵列增益的重要途径。在多小区通信系统中,各小区基站也可以使用相同频段为小区内用户提供服务,以进一步提高频谱效率。为了减小该系统中小区间同频干扰造成的性能损失,协作波束赋形技术通过联合设计各基站的波束赋形矢量,能够提高系统总体性能。然而,传统的协作波束赋形方法需要获得全局的信道状态信息,存在计算开销大且复杂度高等问题,在实际通信系统中并不能实现。另一方面,随着近些年机器学习、神经网络的突破性发展,大数据、机器学习等技术被应用到各种场景中。因此,本文考虑基于深度学习和深度强化学习技术,实现在比较低的系统开销下达到较高的系统容量,来满足实际系统中的要求,具体研究内容如下:首先,为了解决传统协作波束赋形算法因计算复杂度高、传输开销大等而无法应用于实际通信系统的问题,本文提出了基于监督学习技术来实现多小区协作波束赋形。具体地,本文设计了基于监督学习的信道信息压缩网络、波束方向矢量设计网络以及损失函数。仿真结果表明,基于监督学习的多小区协作波束赋形其性能可以接近加权最小均方误差(Weighted Minimum Mean Square Error,WMMSE)算法,同时大幅减小计算复杂度及传输开销。进一步地,基于监督学习的多小区协作波束赋形虽然能满足实际通信系统中的要求,但是其功率分配方案为等功率分配,仍有优化空间。为此,本文设计了一种基于多智能体强化学习的动态功率分配方案。具体地,在利用基于监督学习技术设计波束方向矢量的基础上,本文提出利用多智能体强化学习技术实现多小区系统的动态功率分配。仿真结果表明,基于监督学习和深度强化学习相结合的多小区协作波束赋形算法在实现低计算复杂度和传输开销的同时,能够进一步提高多小区系统的和速率。此外,针对基于监督学习的波束方向矢量设计方案性能难以优于标签算法的问题,本文提出了基于无监督学习的波束方向矢量设计方案。具体地,本文设计了基于无监督学习的信道信息压缩网络、波束方向矢量设计网络以及损失函数。仿真结果表明,基于无监督学习和深度强化学习相结合的多小区协作波束赋形算法在实现低计算复杂度和传输开销的同时,能够更进一步提高多小区系统的和速率。

本文内容包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主题。发布者：毕设工厂，原文地址：https://m.bishedaima.com/lunwen/48084.html