基于认知行为知识的智能体强化学习技术研究
这是一篇关于认知行为模型,强化学习,多智能体,启发加速算法的论文, 主要内容为受限于采样效率问题,智能体面对高维连续状态空间、奖励稀疏以及多智能体协同等复杂任务时,仅依靠深度强化学习算法从零学习最优策略十分困难。如何将已有知识表示为智能体可理解、可利用的形式,并用于加速策略学习仍是一个难题。首先,本文提出基于认知行为模型的深度强化学习框架,将领域内先验知识建模为基于信念-愿望-意图(Belief-Desire-Intention,BDI)的认知行为模型。然后,基于此框架,分别在单智能体和多智能体应用场景中提出了对应的深度强化学习算法,并定量化设计了认知行为模型对智能体策略更新的引导方式。最后,设计了基于认知行为模型的强化学习原型系统,以无人机侦察路径规划任务为例,验证了本文所提出方法的有效性。主要工作内容及创新点如下:1.提出了基于认知行为模型的强化学习框架。首先,将认知行为知识构建为基于BDI智能体模型的认知行为模型,为学习提供动态的指导。在此基础上,分别提出了基于认知行为模型的单智能体强化学习架构和基于认知行为模型的多智能体强化学习架构。此外,具体设计了所提架构中各功能模块以及模块间相互作用关系,为本文后续算法设计提供架构基础。2.设计实现了单智能体启发加速深度强化学习算法。为缓解高维状态空间和稀疏奖励对强化学习效率的影响,提出启发加速深度Q网络(HADQN)。首先,设计了启发策略形式及作用原理,将认知行为与学习过程结合。其次,构建了启发策略网络用于拟合认知行为知识,并将其融入深度Q网络。再次,设计了启发策略网络的更新方式和其对学习的动态引导方式。最后,在典型GYM环境和星际争霸2环境中验证了算法可以根据环境变化动态提取有效的认知行为知识,并借助启发策略网络加速智能体策略收敛。3.设计实现了多智能体启发加速协同强化学习算法。针对多智能体环境下,状态空间维度巨大提升的问题,以及智能体对环境的部分可观特性,提出启发加速QMIX网络(HAQMIX)。首先,设计了基于GRU核心的启发加速DRQN网络,解决了部分可观环境下智能体的状态确认困难的问题。其次,设计了基于Mixing网络的启发加速智能体价值联合网络,利用了集中训练分散执行的平稳训练优势。最后,在星际争霸3M环境中验证了算法能够将模型提供的知识运用到学习过程中,同时能高效地利用正确的知识加速智能体策略收敛。4.设计实现了原型系统并设计案例进行验证。本文基于框架及算法研究成果,设计实现了面向多种学习环境的原型系统。首先,完成了环境选择模块、模型设置模块、算法配置模块、仿真测试模块和决策应用模块等系统功能模块的构建与集成。其次,设计实现了以无人机侦察路径规划任务为背景的单智能体及多智能体学习环境。最后,演示了系统在所设计环境中的表现,进而验证了本文所设计框架及具体实现算法的有效性与优势。
基于多智能体异构网络的电力集中抄表系统的研究
这是一篇关于异构网络,多智能体,网关,DL/T645通信规约,数据帧的论文, 主要内容为我国电力系统最后一公里的用电网络用户数量庞大、现场环境复杂、地理分布不一致、成本压力大、通信媒介质量低,要求我国供电部门要针对不同的地理环境合理选择通讯方式,这要求抄表系统中的集中器、采集器和电能表等表计对各种通讯方式均具有兼容性。怎样使电网数据在不同的通讯网络即异构网络之间无缝的传输是一个值得研究的课题。本文在基于多智能体的城镇电能表集抄系统总体框架结构和DL/T645通信规约的基础上,设计了多种异架构网 络的通信网关,具有一定的理论意义和应用价值。 本文所做的的主要工作如下: 1、在分析了电力集中抄表系统中的各种技术规范和通信规约的基础上,给出了多智能体电力集中抄表系统组网的总体设计和网络框架以及网络拓扑结构,并结合电力集中抄表系统的网络组成结构,对其中各分智能体进行了阐述和说明,进而对抄表系统中涉及到的各种通信方式进行了分析和设计。 2、结合DL/T645通信规约中的数据帧结构特点,对ZigBee与TCP/IP、宽带电力线载波与IP网络、ZigBee与GPRS、电力线载波与RS485等异构网络的网关进行了设计,对其数据帧格式以及协议栈结构进行了分析和改进,并给出了数据转换模型和网关的协议模型。 3、结合集中抄表系统的框架,对集中抄表系统的整体硬件、后台管理软件、集中器和采集器的硬件分别进行了设计,并具体的阐述了各个网关的软硬件设计。 4、本文在对系统设计后对各网关及采集器进行了系统测试,对ZigBee-GPRS网关以及整个采集器的性能测试进行详细说明。利用串口调试助手检测GPRS模块和ZigBee模块是否可以正常接收数据,然后对ZigBee和GPRS的融合组网进行了测试;测试了采集器设备的正常收发数据性能和其他相关的性能,给出了测试的结果。
异构多智能体博弈对抗的强化学习技术优化
这是一篇关于强化学习,多智能体,异构性,泛化性的论文, 主要内容为近年来,随着计算能力的提升和数据量的增长,人工智能逐渐成为计算机学科的热门研究方向。作为最贴近人类学习过程的人工智能方法,强化学习是目前最吸引人关注的明星领域之一。而多智能体强化学习作为博弈论和人工智能的交叉点,更是最前沿的研究点,目前已经在学界和业界得到广泛应用,例如机器人、游戏、推荐系统等。但是距离发展成为类似人脸识别或文本分类等成熟落地的人工智能技术,多智能体强化学习仍有许多科学问题和工业挑战需要克服。在多智能体强化学习的训练中,由于环境返回的奖励信号过于稀疏训练效率较低,训练所需的数据量巨大,导致训练的硬件要求和时间成本太高;并且现有的算法没有考虑到智能体之间的异构性,实际上这是多智能体博弈对抗问题中的一个重要因素;最后经过训练的强化学习模型经常过度拟合于特定任务,导致模型缺乏泛化性,使模型在应用于不同场景时不具备稳定性。针对多智能体博弈对抗问题中存在的异构性问题,本文提出分组的思想,将智能体按照观察空间和动作空间的特征划分为不同的种群,以此对异构问题进行建模并形式化为一个边际优化问题,通过交替最大化理论求解该优化问题并证明了其收敛性和局部最优性,为理解和促进异构智能体之间的关系提供了新的视角。在此基础上还提出了一种高效的两阶段异构融合迭代方法,通过微调的方法修改现有模型使其快速适应异构任务以提高效率,并通过迭代方法依次训练不同的智能体组直到算法收敛。针对模型的泛化性问题,提出了状态建模与特征提取的方法,将状态向量建模为一个与智能体数量无关的特殊矩阵并通过卷积网络从矩阵中提取有价值的特征,此外还使用了死亡掩码技术以避免死亡智能体对损失函数计算的影响。最后本文在星际争霸SMAC平台的不同场景地图中进行了广泛的实验,结果表明本文提出的方法在困难的异构多智能体任务中的表现显著优于SOTA算法并具有较好的泛化性。
基于SSH2架构的分布式多智能体风电场监测系统
这是一篇关于风电场,多智能体,状态监测,SSH2架构,Java Web的论文, 主要内容为随着世界各国经济的发展,环境问题日益严峻,大力开发清洁能源势在必行。我国风电产业发展迅猛,总装机容量连续三年超过美国,稳居世界第一,但频发的风力发电机故障也给风电场带来不小的经济损失。目前的风电场,大多采用日常巡检及事后维修方式,效率低、成本高,风电场风机设备监测系统,均由厂家一体化设计,软硬件耦合,缺乏灵活性,且无法扩展监测对象,不可以实现分布式监测。 应用分布式多智能体技术,设计风电场设备状态监测系统,底层Agent负责相应监测对象的数据采集及分析处理,并将结果上传;顶层的协调与管理Agent收集各底层Agent的处理结果,通过对数据采集与处理Agent运行权限的登记与注销,灵活增加或减少监测对象,无需变动顶层软件即可实现底层硬件与顶层软件的解耦。数据采集后需进行快速傅里叶变换及小波分析等处理,进而提取故障特征值,故引入分布式计算方法,将复杂的数学运算分摊给底层Agent;采用基于合同网协议的多Agent协作方式,底层Agent参与任务投标,由顶层Agent进行评价并授予任务。 传感器及相应的嵌入式系统构成系统底层硬件单元,顶层软件采用基于J2EE规范的SSH2框架搭建风电场设备状态监测管理系统。系统采用浏览器/服务器模式,减轻风机客户端的系统开销,使其专注于风机监测任务,发挥服务器事务处理能力强的优势;在轻量级SSH2框架中,利用Struts2框架在表示层的优点,高效处理中控室下达的各种控制命令;基于Spring框架中依赖注入的解耦策略,以配置文件的方式将监测系统的业务逻辑组织在一起,由Spring进行管理并自动实现对象的实例化,在实现解耦的同时达到减少系统开销的目的;在持久层使用Hibernate实现与风电场监测系统数据库的交互,通过对JDBC进行轻量级封装,能够将因数据持久层的变动而引起的修改量减至最小;最后,采用TCP/IP协议,风机与主控室间进行无线局域网通讯,完成信息的传递。 实验结果表明,监测系统能实时监测风电机组各基本单元的运行状态,且机组各运行单元之间及机组之间的监测相互独立、互不影响。
基于认知行为知识的智能体强化学习技术研究
这是一篇关于认知行为模型,强化学习,多智能体,启发加速算法的论文, 主要内容为受限于采样效率问题,智能体面对高维连续状态空间、奖励稀疏以及多智能体协同等复杂任务时,仅依靠深度强化学习算法从零学习最优策略十分困难。如何将已有知识表示为智能体可理解、可利用的形式,并用于加速策略学习仍是一个难题。首先,本文提出基于认知行为模型的深度强化学习框架,将领域内先验知识建模为基于信念-愿望-意图(Belief-Desire-Intention,BDI)的认知行为模型。然后,基于此框架,分别在单智能体和多智能体应用场景中提出了对应的深度强化学习算法,并定量化设计了认知行为模型对智能体策略更新的引导方式。最后,设计了基于认知行为模型的强化学习原型系统,以无人机侦察路径规划任务为例,验证了本文所提出方法的有效性。主要工作内容及创新点如下:1.提出了基于认知行为模型的强化学习框架。首先,将认知行为知识构建为基于BDI智能体模型的认知行为模型,为学习提供动态的指导。在此基础上,分别提出了基于认知行为模型的单智能体强化学习架构和基于认知行为模型的多智能体强化学习架构。此外,具体设计了所提架构中各功能模块以及模块间相互作用关系,为本文后续算法设计提供架构基础。2.设计实现了单智能体启发加速深度强化学习算法。为缓解高维状态空间和稀疏奖励对强化学习效率的影响,提出启发加速深度Q网络(HADQN)。首先,设计了启发策略形式及作用原理,将认知行为与学习过程结合。其次,构建了启发策略网络用于拟合认知行为知识,并将其融入深度Q网络。再次,设计了启发策略网络的更新方式和其对学习的动态引导方式。最后,在典型GYM环境和星际争霸2环境中验证了算法可以根据环境变化动态提取有效的认知行为知识,并借助启发策略网络加速智能体策略收敛。3.设计实现了多智能体启发加速协同强化学习算法。针对多智能体环境下,状态空间维度巨大提升的问题,以及智能体对环境的部分可观特性,提出启发加速QMIX网络(HAQMIX)。首先,设计了基于GRU核心的启发加速DRQN网络,解决了部分可观环境下智能体的状态确认困难的问题。其次,设计了基于Mixing网络的启发加速智能体价值联合网络,利用了集中训练分散执行的平稳训练优势。最后,在星际争霸3M环境中验证了算法能够将模型提供的知识运用到学习过程中,同时能高效地利用正确的知识加速智能体策略收敛。4.设计实现了原型系统并设计案例进行验证。本文基于框架及算法研究成果,设计实现了面向多种学习环境的原型系统。首先,完成了环境选择模块、模型设置模块、算法配置模块、仿真测试模块和决策应用模块等系统功能模块的构建与集成。其次,设计实现了以无人机侦察路径规划任务为背景的单智能体及多智能体学习环境。最后,演示了系统在所设计环境中的表现,进而验证了本文所设计框架及具体实现算法的有效性与优势。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设导航 ,原文地址:https://m.bishedaima.com/lunwen/49792.html