摘要:随着无人机应用需求不断拓展, 为了保证无人机能够按要求完成预定任务, 抗干扰控制器的设计受到了诸多关注. 目前广泛使用的传统控制算法稳定性较好但抗干扰能力较差. 针对上述问题, 提出了一种基于改进双延迟深度确定性策略梯度(TD3)算法的混合抗干扰控制器, 该方法使用非线性模型预测控制(NMPC)作为基础控制器, 并引入了一个基于改进TD3的干扰补偿器进行混合控制. 该方法结合了NMPC控制器的优点的同时解决了传统控制算法在抗干扰方面的不足. 本文将多头注意力机制(MA)以及长短期记忆网络(LSTM)引入TD3的Actor网络中, 提高了TD3对于空间管理信息以及时间关联信息的捕捉能力, 同时引入一种连续型对数奖励函数来提高训练稳定性和收敛速度, 并使用带随机干扰的随机任务场景进行训练以提高模型泛化性. 在实验中将NMPC-MALSTM-TD3架构与使用DDPG、SAC、TD3、PPO算法作为干扰补偿器的架构进行对比, 实验结果表明, NMPC-MALSTM-TD3架构的综合表现最好, 而且对NMPC的稳定性和实时性影响较小.