摘要:提出一种基于强化学习的生成对抗网络(Reinforcement learning-based Generative Adversarial Networks, Re-GAN)能耗预测方法. 该算法将强化学习与生成对抗网络相结合, 将GAN (Generative Adversarial Nets) 中的生成器以及判别器分别构建为强化学习中Agent (生成器)以及奖赏函数. 在训练过程中, 将当前的真实能耗序列作为Agent的输入状态, 构建一组固定长度的生成序列, 结合判别器及蒙特卡洛搜索方法进一步构建当前序列的奖赏函数, 并以此作为真实样本序列后续第一个能耗值的奖赏. 在此基础之上, 构建关于奖赏的目标函数, 并求解最优参数. 最后使用所提算法对唐宁街综合大楼公开的建筑能耗数据进行预测试验, 实验结果表明, 所提算法比多层感知机、门控循环神经网络和卷积神经网络具有更高的预测精度.