结合强化学习和Petri网的游戏AI建模、分析与优化
这是一篇关于游戏AI,形式化方法,Petri网,强化学习,寻路的论文, 主要内容为在电子游戏的设计与开发中,游戏人工智能(Artificial Intelligence,AI)的设计是一个重要环节,是影响玩家体验的一个关键因素。游戏AI作为游戏可玩性、自由度的技术核心,可以提供给玩家更深层次的互动,让每个玩家体验到有趣、丰富且不同的游戏内容。有限状态机和行为树是目前游戏AI的主流配置方式,但有限状态机的决策较为单一,不易拓展,行为树则会占用更多的计算性能。强化学习作为三大机器学习方法之一,利用其“试探-得到回报-根据回报改变行为以求得更好的回报”的闭环行为策略,在电子游戏开发制作和研究中得到很好的应用,也是设计游戏AI的重要途径之一。Petri网是一种描述状态变化的建模方法,通过变迁构建各状态之间的联系,设定好变迁发射的规则以及反馈,使得网模型具备良好的灵活性。Petri网相较于其他建模语言具有一定的优势,其图形表示法简明直观,又具有很强的逻辑与数学理论支撑。本文研究的主要内容为探索形式化方法在游戏AI算法的拓展方式及其应用价值。结合强化学习和Petri网,本文主要工作成果如下:(1)提出了一种Petri网强化学习(Petri Net Reinforcement Learning,PNRL)算法,利用Petri网模型进行强化学习训练。与传统强化学习算法构建Q值表格不同的是,PNRL算法利用Petri网处理状态转移的高效性,将令牌存入Petri网的库所中,每一次变迁的发射伴随一次训练。学习过程的值更新借鉴了Q-Learning算法的值函数估计方式,但是执行的策略完全依靠Petri网自身变迁规则生成。(2)在算法测试过程中,PNRL算法的训练效果明显优于传统表格型Q-Learning算法。在面对状态数量较多的情况下,PNRL算法能保持稳定的计算消耗,用时更短,解决了Q-table过大影响训练效率的问题。同时在收敛性测试中,PNRL算法收敛速度更快。收敛后的Petri网模型能输出获得目标奖励的最快动作策略,避免局部最优。(3)将PNRL算法应用于游戏AI路径规划的导航网格和航路点,利用预先训练好的Petri网模型,快速输出目标点的寻路路径,减少实时计算占用的性能。优化后的PNRL算法,在处理较多位置状态时仍有不错的收敛效果。游戏路径规划不存在完美解法,本文为寻路算法提供一种新的思路和解决方案。
多无人机系统虚拟仿真平台的设计与实现
这是一篇关于多无人机,ML-Agents实时交互,虚拟仿真,训练环境,游戏AI的论文, 主要内容为多机系统相比于单机系统具有容错率高、载荷大等特点,对复杂任务环境有较强的适应性,具有重要的研究价值,但其规模大、成本高的特征,导致实物研究难度较大。为了缩短研究周期、提高开发效率,本文面向城市环境搭建了多无人机系统的虚拟仿真平台,用以展示多样化的城市任务场景,并支持智能算法的在线训练和验证,主要研究内容包括:(1)针对多无人机系统任务场景多样性的特点,开发管理软件统一管理仿真数据。首先,基于Swing框架设计图形用户界面。之后,开发视频展示模块,演示虚拟环境中的多无人机任务场景。其次,根据数据交互的次数,将仿真类型分为单次交互仿真和多次交互仿真,前者以集群任务分配为代表,后者以围捕、红蓝博弈任务为代表,主要使用强化学习方法,在“试错”中不断训练模型。针对两种类型分别基于数据库和消息队列交互的方式设计仿真数据存储模块。最后基于My SQL数据库开发仿真数据监管模块。(2)针对无人机集群多类型任务的演示需求和智能算法对训练环境的需求开发了视景软件。利用3ds Max建模工具和Fantastic City Generator等场景搭建工具在Unity游戏引擎中搭建了虚拟城市环境和各目标场景,并将任务场景分为演示类场景和训练类场景。演示类场景完全在虚拟环境中实现,使用C#脚本驱动场景运行,利用动画特效、轨迹插件等技术在城市环境中模拟多无人机系统的任务场景。训练类场景考虑和算法端的数据交互,基于ML-Agents框架开发,利用环境数据帮助强化学习算法训练并通过视景演示直观地观察训练的状态。(3)针对旋翼类无人机的动态任务环境,以围捕任务为例,考虑任务目标和条件约束设计围捕模型。由于多智能体强化学习网络的训练需求,在虚拟任务环境中考虑对方无人机的行为决策,面向围捕场景和博弈场景,基于寻路方法、人工势场法、聚类方法和比例控制法设计了对方的策略,目的是通过双方的行为交互训练出合理的网络参数,使得执行效果更贴近于真实任务环境。
结合强化学习和Petri网的游戏AI建模、分析与优化
这是一篇关于游戏AI,形式化方法,Petri网,强化学习,寻路的论文, 主要内容为在电子游戏的设计与开发中,游戏人工智能(Artificial Intelligence,AI)的设计是一个重要环节,是影响玩家体验的一个关键因素。游戏AI作为游戏可玩性、自由度的技术核心,可以提供给玩家更深层次的互动,让每个玩家体验到有趣、丰富且不同的游戏内容。有限状态机和行为树是目前游戏AI的主流配置方式,但有限状态机的决策较为单一,不易拓展,行为树则会占用更多的计算性能。强化学习作为三大机器学习方法之一,利用其“试探-得到回报-根据回报改变行为以求得更好的回报”的闭环行为策略,在电子游戏开发制作和研究中得到很好的应用,也是设计游戏AI的重要途径之一。Petri网是一种描述状态变化的建模方法,通过变迁构建各状态之间的联系,设定好变迁发射的规则以及反馈,使得网模型具备良好的灵活性。Petri网相较于其他建模语言具有一定的优势,其图形表示法简明直观,又具有很强的逻辑与数学理论支撑。本文研究的主要内容为探索形式化方法在游戏AI算法的拓展方式及其应用价值。结合强化学习和Petri网,本文主要工作成果如下:(1)提出了一种Petri网强化学习(Petri Net Reinforcement Learning,PNRL)算法,利用Petri网模型进行强化学习训练。与传统强化学习算法构建Q值表格不同的是,PNRL算法利用Petri网处理状态转移的高效性,将令牌存入Petri网的库所中,每一次变迁的发射伴随一次训练。学习过程的值更新借鉴了Q-Learning算法的值函数估计方式,但是执行的策略完全依靠Petri网自身变迁规则生成。(2)在算法测试过程中,PNRL算法的训练效果明显优于传统表格型Q-Learning算法。在面对状态数量较多的情况下,PNRL算法能保持稳定的计算消耗,用时更短,解决了Q-table过大影响训练效率的问题。同时在收敛性测试中,PNRL算法收敛速度更快。收敛后的Petri网模型能输出获得目标奖励的最快动作策略,避免局部最优。(3)将PNRL算法应用于游戏AI路径规划的导航网格和航路点,利用预先训练好的Petri网模型,快速输出目标点的寻路路径,减少实时计算占用的性能。优化后的PNRL算法,在处理较多位置状态时仍有不错的收敛效果。游戏路径规划不存在完美解法,本文为寻路算法提供一种新的思路和解决方案。
结合强化学习和Petri网的游戏AI建模、分析与优化
这是一篇关于游戏AI,形式化方法,Petri网,强化学习,寻路的论文, 主要内容为在电子游戏的设计与开发中,游戏人工智能(Artificial Intelligence,AI)的设计是一个重要环节,是影响玩家体验的一个关键因素。游戏AI作为游戏可玩性、自由度的技术核心,可以提供给玩家更深层次的互动,让每个玩家体验到有趣、丰富且不同的游戏内容。有限状态机和行为树是目前游戏AI的主流配置方式,但有限状态机的决策较为单一,不易拓展,行为树则会占用更多的计算性能。强化学习作为三大机器学习方法之一,利用其“试探-得到回报-根据回报改变行为以求得更好的回报”的闭环行为策略,在电子游戏开发制作和研究中得到很好的应用,也是设计游戏AI的重要途径之一。Petri网是一种描述状态变化的建模方法,通过变迁构建各状态之间的联系,设定好变迁发射的规则以及反馈,使得网模型具备良好的灵活性。Petri网相较于其他建模语言具有一定的优势,其图形表示法简明直观,又具有很强的逻辑与数学理论支撑。本文研究的主要内容为探索形式化方法在游戏AI算法的拓展方式及其应用价值。结合强化学习和Petri网,本文主要工作成果如下:(1)提出了一种Petri网强化学习(Petri Net Reinforcement Learning,PNRL)算法,利用Petri网模型进行强化学习训练。与传统强化学习算法构建Q值表格不同的是,PNRL算法利用Petri网处理状态转移的高效性,将令牌存入Petri网的库所中,每一次变迁的发射伴随一次训练。学习过程的值更新借鉴了Q-Learning算法的值函数估计方式,但是执行的策略完全依靠Petri网自身变迁规则生成。(2)在算法测试过程中,PNRL算法的训练效果明显优于传统表格型Q-Learning算法。在面对状态数量较多的情况下,PNRL算法能保持稳定的计算消耗,用时更短,解决了Q-table过大影响训练效率的问题。同时在收敛性测试中,PNRL算法收敛速度更快。收敛后的Petri网模型能输出获得目标奖励的最快动作策略,避免局部最优。(3)将PNRL算法应用于游戏AI路径规划的导航网格和航路点,利用预先训练好的Petri网模型,快速输出目标点的寻路路径,减少实时计算占用的性能。优化后的PNRL算法,在处理较多位置状态时仍有不错的收敛效果。游戏路径规划不存在完美解法,本文为寻路算法提供一种新的思路和解决方案。
多无人机系统虚拟仿真平台的设计与实现
这是一篇关于多无人机,ML-Agents实时交互,虚拟仿真,训练环境,游戏AI的论文, 主要内容为多机系统相比于单机系统具有容错率高、载荷大等特点,对复杂任务环境有较强的适应性,具有重要的研究价值,但其规模大、成本高的特征,导致实物研究难度较大。为了缩短研究周期、提高开发效率,本文面向城市环境搭建了多无人机系统的虚拟仿真平台,用以展示多样化的城市任务场景,并支持智能算法的在线训练和验证,主要研究内容包括:(1)针对多无人机系统任务场景多样性的特点,开发管理软件统一管理仿真数据。首先,基于Swing框架设计图形用户界面。之后,开发视频展示模块,演示虚拟环境中的多无人机任务场景。其次,根据数据交互的次数,将仿真类型分为单次交互仿真和多次交互仿真,前者以集群任务分配为代表,后者以围捕、红蓝博弈任务为代表,主要使用强化学习方法,在“试错”中不断训练模型。针对两种类型分别基于数据库和消息队列交互的方式设计仿真数据存储模块。最后基于My SQL数据库开发仿真数据监管模块。(2)针对无人机集群多类型任务的演示需求和智能算法对训练环境的需求开发了视景软件。利用3ds Max建模工具和Fantastic City Generator等场景搭建工具在Unity游戏引擎中搭建了虚拟城市环境和各目标场景,并将任务场景分为演示类场景和训练类场景。演示类场景完全在虚拟环境中实现,使用C#脚本驱动场景运行,利用动画特效、轨迹插件等技术在城市环境中模拟多无人机系统的任务场景。训练类场景考虑和算法端的数据交互,基于ML-Agents框架开发,利用环境数据帮助强化学习算法训练并通过视景演示直观地观察训练的状态。(3)针对旋翼类无人机的动态任务环境,以围捕任务为例,考虑任务目标和条件约束设计围捕模型。由于多智能体强化学习网络的训练需求,在虚拟任务环境中考虑对方无人机的行为决策,面向围捕场景和博弈场景,基于寻路方法、人工势场法、聚类方法和比例控制法设计了对方的策略,目的是通过双方的行为交互训练出合理的网络参数,使得执行效果更贴近于真实任务环境。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设客栈 ,原文地址:https://m.bishedaima.com/lunwen/54527.html