摘要:本文主要研究了在室内场景中使用多台无人机设备对受害者进行合作搜索的问题. 在室内场景中, 依赖全球定位系统获取受害者位置信息可能是不可靠的. 为此, 本文提出一种基于多智能体强化学习(MARL)方案, 该方案着重对无人机团队辅助救援时的路径规划问题进行研究. 相比于传统方案, 所提方案在大型室内救援场景中更具优势, 例如部署多台救援无人机、救援多位受害者. 本方案也考虑了无人机的充电问题, 保证无人机的电量始终充足. 具体地, 鉴于模型中的救援场景深度参数不断变化, 所提方案将搜索路径规划问题模拟为部分可观的马尔可夫决策过程(Dec-POMDP), 为使得对无人机控制策略最优, 本文又训练了一个双深度的Q网络架构(Double DQN). 最后使用蒙特卡罗方法验证了本方案在大型室内环境中能够使多台无人机有效合作, 且能最大化搜集受害者所用手机内部所存储的位置信息.