摘要:为提高深度强化学习目标检测模型的检测精度和检测速度, 对传统模型进行改进. 针对特征提取不充分的问题, 使用融入通道注意力机制的VGG16特征提取模块作为强化学习的状态输入, 来更全面地捕获图像中的关键信息; 针对仅使用交并比作为奖励出现的评价不精准问题, 使用额外考虑了真实框与预测框中心点距离以及长宽比的改进奖励机制, 使奖励更加合理; 为加速训练过程的收敛并增强智能体对当前状态和动作评价的客观性, 使用Dueling DQN算法进行训练. 在PASCAL VOC2007和PASCAL VOC2012数据集上进行实验, 实验结果表明, 该检测模型仅需4–10个候选框即可检测到目标. 与Caicedo-RL相比, 准确率提高9.8%, 最终预测框和真实框的平均交并比提高5.6%.