摘要:随着现代科技的迅猛发展, 数据中心已经成为信息化社会的IT基础设施, 存储管理大量关键数据. 当前, 数据中心的管理大多是依靠经验丰富的专业运维人员使用计算机自动监测机房设备各项指标, 并对设备做出多次检查, 耗时且繁琐. 深度学习和人工智能技术当前吸引了越来越多的注意力, 并在互联网和工业领域取得了许多成功应用. 本文设计了基于门控循环单元的深度学习框架对云数据中心机房设备故障进行自动化的诊断, 并联合时序信息基于过去设备的运行状态信息对未来状态进行预测. 其中, 序列数据以固定时间窗分割后输入双向GRU单元层, 使网络学习到数据点的前后时间依赖关系. 在GRU层输出基础上, 我们添加了自注意力层和embedding层, 让神经网络能够学习到对故障预测更有效的特征并进一步对特征进行降维. 最后, 多层感知机被用于对降维后的数据进行分类. 基于真实数据集的实验结果显示, 本文提出的基于GRU的深度学习框架相比LSTM, SVM和KNN等常用模型能够更准确地检测出云数据中心故障.