摘要:针对强化学习方法训练能耗控制系统时所存在奖赏稀疏的问题, 将一种基于自监督网络的深度确定策略梯度(deep deterministic policy gradient, DDPG)方法应用到建筑能耗控制问题中. 首先, 处理状态和动作变量作为自监督网络前向模型的输入, 预测下一个状态特征向量, 同时将预测误差作为好奇心设计内部奖赏, 以解决奖赏稀疏问题. 然后, 采用数据驱动的方法训练建筑能耗模型, 构建天气数据作为输入、能耗数据作为输出. 最后, 利用基于自监督网络的DDPG方法求解最优控制策略, 并以此设定空气处理装置(air handling unit, AHU)的最优排放温度, 减少设备能耗. 实验结果表明, 该方法能够在保持建筑环境舒适的基础上, 实现较好的节能效果.