摘要:多智能体进化强化学习将进化算法融入多智能体强化学习中, 缓解了多智能体强化学习固有的低质量奖励信号和非平稳性等问题. 然而, 现有工作中强化学习和进化算法之间的学习与探索通常难以平衡, 一方面强化学习中的较差策略会对种群造成潜在的破坏性影响, 另一方面种群中高质量策略的低利用率限制了整体的学习效率. 此外, 在复杂的部分可观测环境中, 智能体难以实现有效的观测表征, 降低了智能体的决策准确性. 为了解决上述问题, 本文提出了一种基于策略优化和表征搜索的改进多智能体进化强化学习方法(improved multi-agent evolutionary reinforcement learning with strategy optimization and representation search, SORS). 首先, 针对学习与探索的平衡问题, 本文设计了一个奖励驱动的策略优化模块, 使用优势策略来指导进化算法的种群变异和强化学习的梯度优化. 其次, 针对复杂环境中的部分可观测性问题, 引入了一个表征搜索方法, 通过添加扰动的表征网络种群来搜索更好的表征, 优化了智能体在复杂环境中的观测表征. 最后, 在星际争霸仿真平台上对提出的方法进行了实验验证, 实验结果表明SORS具有卓越的性能, 在不同环境的平均胜率超过了所有的基线算法.