摘要:随着自动化技术和机器人领域的快速发展, 移动机器人路径规划的精确性要求日益提高. 针对深度强化学习在复杂环境下路径规划存在的收敛稳定性差、样本效率低及环境适应性不足等问题, 提出了一种改进的基于决斗深度双Q网络的路径规划算法(R-D3QN). 通过构建双网络架构解耦动作选择与价值估计过程, 有效缓解Q值过估计问题, 提高收敛稳定性; 设计时序优先经验回放机制, 结合长短期记忆网络(LSTM)的时空特征提取能力, 改进样本利用效率; 提出基于模拟退火的多阶段探索策略, 平衡了探索与利用, 增强环境适应性. 实验结果表明, 与传统DQN算法相比, R-D3QN算法在简单环境下平均奖励值提高了9.25%, 收敛次数减少了24.39%, 碰撞次数减少了41.20%; 在复杂环境下, 平均奖励值提升了12.98%, 收敛次数减少了11.86%, 碰撞次数减少了42.14%. 同时与其他改进的DQN算法对比也具有明显的优势, 验证了所提算法的有效性.