引言
近年来,智能体迅速发展[1],在各个领域都得到了广泛应用,但是当任务环境越来越复杂时,单智能体由于其执行能力有限,无法完成大规模的任务,因此通过多智能体协同配合执行任务成为了智能体应用的主流。
国内外研究者分别从不同的角度对关于多节点的任务分配[2]问题进行了探索[3]。在静态任务分配方面,田震等[4]基于多类型基因编码的改进遗传算法,实现对协同任务分配问题的求解;邓可等[5]提出了基于改进的量子粒子群算法,在多智能体任务分配问题中,提高了任务分配的精度与寻优效率,使任务分配达到全局最优值;许可等[6]基于分布式拍卖算法,根据已知的任务情况提前进行分配,实现任务收益最大化。上述方法虽然在一定程度上能够实现任务分配,但在动态复杂的任务环境下,难以满足实时性和优化性的要求。因此,越来越多的学者在动态分配方面进行了大量研究。李相民等[7]提出了在时间窗口约束下,通过一致性联盟算法解决多智能体的动态任务分配问题;孙鹏等[8]进行了基于突发事件的任务分配研究,以最小完成时间为目标函数,通过贪婪算法进行可执行任务的动态分配,但忽略了任务截止时间的约束。上述主要研究每个任务的完整分配,而不是根据任务的实际情况进行任务中的调整,并且只进行有限次数的分配。吴蔚楠等[9]主要采取分布式遗传算法来解决环境中多智能体任务协同动态分配问题,但忽略了高动态任务场景中不断下发新任务时,任务的完成时间约束带来任务完成度低的问题。
随着人工智能[10]技术的发展,强化学习[11](Reinforcement Learning, RL)逐渐被引入任务分配领域,其通过智能体与环境的交互学习,能够在复杂场景中实现动态决策。然而,现有研究中,强化学习在任务分配中的应用仍处于初期阶段,尤其是在多智能体协同任务[12]和动态任务分配问题上,研究成果较为有限。针对动态任务场景下多智能体协同任务分配效能较低的问题,本文提出了一种基于深度强化学习的协同任务分配方法,结合深度Q网络(Deep Q-Network, DQN)[13]算法,旨在解决动态任务分配中的关键问题。通过构建智能体与环境的交互模型,利用DQN算法实现任务分配的动态优化,以提升确认的效率和效果。本文的研究结果将为未来节点的智能化任务分配提供理论支持和技术参考,具有重要的学术价值和应用意义。
本文详细内容请下载:
http://www.chinaaet.com/resource/share/2000007066
作者信息:
李松,王丽绮,张祺,顾念祖
(中国人民解放军91977部队, 北京 100036)
凡《网络安全与数据治理》(原《信息技术与网络安全》)录用的文章,如作者没有关于汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权等版权的特殊声明,即视作该文章署名作者同意将该文章的汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权授予本刊,本刊有权授权本刊合作数据库、合作媒体等合作伙伴使用。同时,本刊支付的稿酬已包含上述使用的费用,特此声明。