基于强化学习的多智能体协同任务分配与仿真验证

电子技术应用

李松，王丽绮，张祺，顾念祖

中国人民解放军91977部队

摘要： 针对协同任务分配的决策建模与求解难点，开展多智能体协同任务分配技术研究，以实现多智能体间的高效协同和动态任务分配。提出了一种基于深度强化学习的协同任务分配方法，采用深度Q网络（DQN）算法实现智能体的构建和环境的模拟，以优化任务分配的效率和效果。通过构建典型任务场景，设计了详细的决策模型训练与应用方案，验证了所提出的算法在协同任务中的有效性。实验结果表明，该方法能够兼顾多目标综合任务效能，成功概率提升约17%。基于深度Q网络的多智能体协同任务分配方法可以有效提升任务分配效能。

关键词： 任务分配强化学习 DQN算法

中图分类号：TP183 文献标志码：A DOI: 10.16157/j.issn.0258-7998.257192
中文引用格式： 李松，王丽绮，张祺，等. 基于强化学习的多智能体协同任务分配与仿真验证[J]. 电子技术应用，2026，52(5)：16-23.
英文引用格式： Li Song，Wang Liqi，Zhang Qi，et al. Reinforcement learning-based multi-agent collaborative task allocation and simulation validation[J]. Application of Electronic Technique，2026，52(5)：16-23.

Reinforcement learning-based multi-agent collaborative task allocation and simulation validation

Li Song，Wang Liqi，Zhang Qi，Gu Nianzu

91977 Unit of PLA

Abstract： To address the challenges in decision modeling and solution methods for collaborative task allocation, this study investigates multi-agent collaborative task allocation technologies to achieve efficient coordination and dynamic task distribution among multiple agents. A collaborative task allocation method based on deep reinforcement learning is proposed, utilizing the deep Q-network (DQN) algorithm to construct agents and simulate environments, thereby optimizing the efficiency and effectiveness of task allocation. By constructing typical task scenarios and designing detailed decision model training and application schemes, the effectiveness of the proposed algorithm in collaborative tasks is verified. Experimental results demonstrate that the method can balance multi-objective comprehensive task performance, achieving an approximate 17% increase in success probability. The multi-agent collaborative task allocation method based on deep Q-network can effectively improve the efficiency of task allocation.

Key words : task allocation；reinforcement learning；deep Q-network （DQN） algorithm

引言

近年来，智能体迅速发展[1]，在各个领域都得到了广泛应用，但是当任务环境越来越复杂时，单智能体由于其执行能力有限，无法完成大规模的任务，因此通过多智能体协同配合执行任务成为了智能体应用的主流。

国内外研究者分别从不同的角度对关于多节点的任务分配[2]问题进行了探索[3]。在静态任务分配方面，田震等[4]基于多类型基因编码的改进遗传算法，实现对协同任务分配问题的求解；邓可等[5]提出了基于改进的量子粒子群算法，在多智能体任务分配问题中，提高了任务分配的精度与寻优效率，使任务分配达到全局最优值；许可等[6]基于分布式拍卖算法，根据已知的任务情况提前进行分配，实现任务收益最大化。上述方法虽然在一定程度上能够实现任务分配，但在动态复杂的任务环境下，难以满足实时性和优化性的要求。因此，越来越多的学者在动态分配方面进行了大量研究。李相民等[7]提出了在时间窗口约束下，通过一致性联盟算法解决多智能体的动态任务分配问题；孙鹏等[8]进行了基于突发事件的任务分配研究，以最小完成时间为目标函数,通过贪婪算法进行可执行任务的动态分配,但忽略了任务截止时间的约束。上述主要研究每个任务的完整分配，而不是根据任务的实际情况进行任务中的调整，并且只进行有限次数的分配。吴蔚楠等[9]主要采取分布式遗传算法来解决环境中多智能体任务协同动态分配问题，但忽略了高动态任务场景中不断下发新任务时，任务的完成时间约束带来任务完成度低的问题。

随着人工智能[10]技术的发展，强化学习[11]（Reinforcement Learning, RL）逐渐被引入任务分配领域，其通过智能体与环境的交互学习，能够在复杂场景中实现动态决策。然而，现有研究中，强化学习在任务分配中的应用仍处于初期阶段，尤其是在多智能体协同任务[12]和动态任务分配问题上，研究成果较为有限。针对动态任务场景下多智能体协同任务分配效能较低的问题，本文提出了一种基于深度强化学习的协同任务分配方法，结合深度Q网络（Deep Q-Network, DQN）[13]算法，旨在解决动态任务分配中的关键问题。通过构建智能体与环境的交互模型，利用DQN算法实现任务分配的动态优化，以提升确认的效率和效果。本文的研究结果将为未来节点的智能化任务分配提供理论支持和技术参考，具有重要的学术价值和应用意义。

本文详细内容请下载：

http://www.chinaaet.com/resource/share/2000007066

作者信息：

李松，王丽绮，张祺，顾念祖

（中国人民解放军91977部队，北京 100036）

通知公告

编辑观点

理事会

参考资料

凡《网络安全与数据治理》（原《信息技术与网络安全》）录用的文章，如作者没有关于汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权等版权的特殊声明，即视作该文章署名作者同意将该文章的汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权授予本刊，本刊有权授权本刊合作数据库、合作媒体等合作伙伴使用。同时，本刊支付的稿酬已包含上述使用的费用，特此声明。

作者投稿

在线期刊

下载中心

信网杯

《网络安全与数据治理》（原《信息技术与网络安全》）编辑部