摘要:深度强化学习因其可用于从高维的图像中提取出有效信息, 从而可以自动生成解决各类复杂任务的有效策略, 如游戏 AI, 机器人控制和自动驾驶等. 然而, 由于任务环境的复杂性以及智能体低下的探索效率, 使得即使执行相对简单的任务, 智能体仍需要与环境进行大量交互. 因此, 本文提出一种结合Bootstrapped探索方法的CCLF算法—Bootstrapped CCLF, 该算法通过actor网络中多个head来产生更多不同的潜在动作, 从而能够访问到更多不同的状态, 提高智能体的探索效率, 进而加快收敛过程. 实验结果表明, 该算法在DeepMind Control环境中具有比原算法更好的性能以及稳定性, 证明了该算法的有效性.