计算机系统应用  2018, Vol. 27 Issue (7): 193-198   PDF    
基于风电SCADA数据定子温度的预处理算法
黄昊1,2, 易灵芝1, 詹俊2     
1. 湘潭大学, 湘潭 411105;
2. 湖南优利泰克自动化系统有限公司, 长沙 410205
摘要:针对风电机组各部件性能分析过程繁琐低效、预测精度不高以及经济效益不足的非正常风电机组状态问题, 提出一种基于风电SCADA数据定子温度的预处理算法. 通过分析风电SCADA系统采集的各部件数据, 对于其中发电机的定子温度, 优化数据处理与分析的过程, 改进现有的最优组内方差预处理算法, 监测定子温度的趋势与非正常温度的状态, 提高了对发电机定子的维修效率. 通过实例分析表明改进后的最优组方差算法可行且高效, 能够准确处理发电机定子温度曲线数据并通过使用神经网络进行预测, 显著提高了风电机组中发电机定子温度预测的准确性.
关键词: 发电机定子温度    数据预处理    改进OIV算法    SCADA系统    
Preprocessing Algorithm of Stator Temperature Based on Wind Farm SCADA Data
HUANG Hao1,2, YI Ling-Zhi1, ZHAN Jun2     
1. Xiangtan University, Xiangtan 411105, China;
2. Hunan UliTech Automation System Co. Ltd., Changsha 410205, China
Foundation item: National Natural Science Foundation of China (61572416)
Abstract: A preprocessing algorithm for stator temperature based on wind power SCADA data has been put forward in view of deviant status of wind turbine, such as insufficiency on analytical process of performance of wind turbine, the predicting inaccuracy, and the deficiency of economic benefit. The maintaining efficiency of generator stator has been improved since the analysis on data gathered from each part by SCADA system of wind power. For the temperature of stator within the generator, the process and analysis of data have been optimized, with the amelioration of Optimal Interclass Variance (OIV) algorithm and the successful monitoring the trends of temperature of stator and its abnormal temperature status. The improved optimal interclass variance algorithm has been proved feasible and efficient, which is capable of processing date of generator stator’s temperature curve data and making predictions via neural networks, while improving predicting accuracy of generator stator temperature significantly.
Key words: generator stator temperature     data preprocessing     improved Optimal Interclass Variance (OIV) algorithm     SCADA system    

风力发电是目前技术最成熟、最具规模化开发条件的新能源发电方式之一, 因其清洁、高效、可再生等优点, 受到世界各国的重视. 风电机组是制约风电发展的主要因素之一, 其良好的发电性能是保证风力发电企业生产运行管理和发展战略规划的决定因素[1].

在风电迅猛发展的同时, 风机高额的运行维护成本影响了业内的经济效益.风场一般地处偏远、环境恶劣, 并且机舱位于50~80 m以上的高空, 给机组的维护维修工作造成了困难, 增加了机组的运行维护成本. 对于20年工作寿命的机组, 运行维护成本估计占整个风场收入的10%~15%; 对于海上风场, 用于风机运行维护的成本高达风场收入的20%~25%[2,3]. 高额的运行维护费用增加了业内的运营成本, 大大降低了风力发电的实际经济效益.

目前很多企业通常使用SCADA系统采集多台风电机组各部件的状态、属性数据, 不同机型记录的信号范围和类型可以相差很大, 这样的SCADA系统融入到整个风电场中为降低损失、提高效益提供帮助[4]. 考虑到SCADA系统实际采集到的数据复杂化的特点, 传统数据预处理的清洗方法普遍缺乏通用性, 且当存在多输入参数多维度或者缺少历史训练数据时, 大部分用于数据预处理的清洗方法失效[5,6]. 定子温度的实测曲线分布杂乱无序, 无法直接用于风机部件的状态分析. 在国内外风电领域中, 应用较为广泛的聚类、统计分析等数据方法, 但其清洗过程较为繁琐且条件苛刻, 且仍需要针对风机机组具体的分部件进行数据处理, 会显得力不从心, 加上风电机组所处的环境导致各种因素的变化无常, SCADA系统所采集的相关数据并不能直接用来进行曲线分析, 需要一种有效且通用性强的预处理算法对其进行清洗.

发电机是风力发电机组的核心部件, 负责将经由风速导致的旋转的机械能转化为电能, 并为电气系统供电. 发电机长期运行于环境变化不定和电磁环绕中, 容易发生故障. 常见的故障有发电机振动过大、发电机过热、轴承过热、转子/定子线圈短路、定子温度过高等. 据统计, 在发电机所有故障中, 轴承故障率为40%, 定子的故障率为38%, 转子的故障率为10%, 其他故障占12%[7,8].

只有经历过清洗预处理之后的曲线方能准确地反应发电机定子温度的状态, 因此在风电机组性能分析中, 对原始的SCADA数据进行清洗预处理极其重要. 固为了提高对发电机定子的温度状态研究的可靠性, 本文提出了一种用于曲线分析的改进最优组方差算法. 该算法只需要对发电机定子温度和定子温度的相关参数进行分析, 不仅仅改变了传统算法对多维度参数的依赖性, 还能够准确的发现定子温度的非正常点, 为发电机的维护提供了准确的数据支持.

1 数据预处理算法的研究 1.1 SCADA系统采集的定子温度相关参数

本文主要针对部件为发电机定子的温度, 必然需要定子温度的相关参数和定子温度形成曲线进行分析. 据了解[9], 发电机定子温度与电流、线圈绕组及铜耗有关:

${P_{\text{铜}}} = \omega I{R^2}$ (1)

其中, ω为该发电机的相数(单相或三相), I为发电机电流, R为定子电阻, 发热量QP.

根据式(1)得知, 发电机电流I是SCADA系统能够采集的数据, 而R即绕组在本文默认为固定值, ω为三相. 由此得知, 铜耗P与发电机电流密切相关, 而定子温度与铜耗保持绝对的关系, 即发电机定子温度的状态与发电机电流I直接相关.

而作为定子温度的主要相关因素的发电机电流, 将和定子温度形成的数据集通过预处理算法进行数据清洗. 只需分别将定子温度与发电机电流等相关参数通过改进的最优组方差算法[10]和神经网络[1113]工具箱进行分析, 不仅改变了传统分析方法对繁杂数据的依赖性, 而且通过现有SCADA采集的数据能够准确识别出发电机定子非正常温度, 为发电机定子温度的状态监测提供可靠的数据支持. 实例分析表明, 使用该方法能够对定子温度的相关参数进行清洗预处理, 具有很好的通用性, 有助于实现风力发电机定子温度的状态监测及后期的准确诊断与评估, 同时增强风电机组运行稳定性、降低维护成本、提高发电量和经济效益, 均有重要意义.

1.2 原最优组内方差算法

已知定子温度曲线样本集合U, 设 $V = \left\{ {{V_n},{V_1}} \right\}$ 为目标集合, 其中Vn表示该集合中定子温度正常的数据集, V1表示定子温度偏高或偏低的数据集(定义为非正常), 且V满足 ${V_n} \cap {V_1} = \emptyset $ , ${V_n} \cup {V_1} = U$ .

最优组内方差(Optimal Interclass Variance, OIV)算法要解决的问题就是如何快速、准确地对数据集U进行清洗, 识别出发电机定子温度正常和非正常的数据集, 再进一步保留正常、剔除非正常, 这实际上是个数据预处理的问题.

定义1. 已知样本集合 $\left. {U = \left\{ {({x_1},{y_1})} \right.,({x_2},{y_2}), \cdots ,\left( {{x_n},{y_n}} \right)} \right\}$ , 且满足 ${y_i} > {y_{i - 1}},i \in \left( {2,n} \right)$ ,x表示输入参数, y表示定子温度, n为数据点总数. 有方差φ公式:

$\varphi = \frac{1}{\gamma }{\left( {{y_j} - {{\bar y}_\gamma }} \right)^2}$ (2)

原最优组方差(OIV)算法公式为:

$\left. {{\rm{\gamma }} = \arg {\rm{max}}\left\{ {\mathop \sum \limits_{{\rm{\gamma }} = 2}^{{n}} \left( {\frac{1}{{\rm{\gamma }}}\mathop \sum \limits_{{{j}} = 1}^{\rm{\gamma }} {{\left( {{{{y}}_{{j}}} - {{{{\bar y}}}_{\rm{\gamma }}}} \right)}^2}} \right)} \right. < S} \right\}$ (3)
$\bar \delta = \mathop \sum \limits_{\gamma = 2}^n \left( {\frac{1}{\gamma }\mathop \sum \limits_{j = 1}^\gamma {{\left( {{y_j} - {{\bar y}_\gamma }} \right)}^2}} \right) = \mathop \sum \limits_{j = 1}^\gamma \mathop \sum \limits_{j = 1}^\gamma \varphi $ (4)

其中, yjj个点的定子温度; ${\bar y_\gamma }$ 为第1到第γ个点的定子温度平均数, γ为常数; $\bar \delta $ 为定子温度平均滑差值, S为方差阈值.

令发电机电流区间t=0, 1, 2,…,W, 其中W是发电机电流区间总数, 电流区间间隔T默认取5A; 在某个电流区间内, 当且仅当满足式(3)时认为定子温度正常, 则有:

${U_n}\left( t \right) = \left\{ {\left( {{x_i},{y_i}} \right){\rm{|}}\begin{array}{*{20}{c}}{\left( {{x_i},{y_i}} \right) \in U\left( t \right),}\\{1 \le i \le \gamma }\end{array}} \right\}$ (5)
${U_1}\left( t \right) = \left\{ {\left( {{x_i},{y_i}} \right){\rm{|}}\begin{array}{*{20}{c}}{\left( {{x_i},{y_i}} \right) \in U\left( t \right)}\\{\left( {{x_i},{y_i}} \right) \notin {U_n}\left( t \right)}\end{array}} \right\}$ (6)

式中, Un(t)是第t个发电机电流区间的正常数据集; U1(t)是第t个发电机电流区间的非正常数据集.

最后, 对每个电流区间的数据处理结果进行归类整理, 得到发电机定子总的正常数据集和非正常数据集:

${V_n} = \left\{ {\left. {{U_n}\left( 1 \right),{U_n}\left( 2 \right), \cdots ,{U_n}\left( W \right)} \right\}} \right.$ (7)
${V_1} = \left\{ {\left. {{U_1}\left( 1 \right),{U_1}\left( 2 \right), \cdots ,{U_1}\left( W \right)} \right\}} \right.$ (8)
1.3 OIV算法的使用分析

输出曲线反应了定子的状态, 为形象说明OIV算法的思想和求解特点, 下面以一台风电机组中发电机定子的实测温度曲线单月份的数据集为例来进一步说明. 发电机定子实测温度曲线分布如图1所示.

取电流区间间隔T=5 A, 暂时实验以方差阈值 $S < \bar \delta $ , 根据电流区间可将原始数据集划分为37个状态量, 有 $U = \left\{ {U\left( 0 \right),U\left( 2 \right),} \right.\left. { \cdots ,U\left( {36} \right)} \right\}$ . 由于每个状态量的求解过程相似, 这里仅以10号状态量 $U\left( {10} \right)$ 为例进行详细说明, 同时结合5号、20号区间绘制散点分布图供辅助说明.

已知 $U\left( {10} \right) = \left\{ {\left. {\left( {{x_1},{y_1}} \right), \cdots ,\left( {{x_{167}},{y_{167}}} \right)} \right\}} \right.$ 中共有167个定子温度曲线散点. 首先, 按照定子温度由小到大升序排列, 使其满足 ${y_i} > {y_{i - 1}}$ , i∈(2,167)的必要条件; 然后, 依次计算前i个坐标点中定子温度的方差值, 通过对文献的了解, 将计算结果形象地称作滑差值, 所得到的数据集称为滑差集; 最后, 通过与初始阈值S比较分析, 从而实现数据清洗的功能. 为保持数据完整性和参考性, 这里定义第1个坐标点对应的滑差值为0; 另外, 为了缩小数据值范围, 以下计算均用标准方差值代替方差值, 处理后的10号区间数据如表1所示.

图 1 定子温度曲线图

表 1 区间10处理后的部分数据

根据式(3)计算小于阈值S的最大γ, 通过定义的公式(4)得到10号区间的阈值S为13.8504, 即计算小于13.8504的最大γ=84, 对应S为13.885 86, 从而由此得到以(84, 13.885 86)为临界点, 可划分两个数据集. 如图2所示, 由5、10、20区间分别通过这种方法共同绘制的散点图, 可以清晰地看到两种数据集的划分.

通过分析大量的测试数据后, 如图3所示, 是结合全部区间进行OIV算法的散点图, 可以通过灰度值的不同直观由S阈值划分的两种数据集.

1.4 对最优组方差算法的改进

根据上述的式(3)、(4), 发电机电流范围0~183 A, 以每5 A进行区域分隔, 其中I≥180为U(36)区域, 通过定义 $S < \bar \delta $ 再对正常与非正常进行划分.

图 2 定子温度5、10、20号分区图

图 3 时候定子温度曲线图

为了得到阈值S在这些数据中最合适的值, 结合图3发现图中散点的上限和下限都存在较为分散的数据点, 方差阈值S在原来OIV算法的基础上进行改进, 设n1n2为波动的百分比, 方差阈值S则定义为:

$\bar \delta * \left( {1 - {{{n}}_{\rm{1}}}} \right) < S < \bar \delta * \left( {1 + {{{n}}_{\rm{2}}}} \right)$ (9)

并对OIV算法式(3)改进为:

$\left. {\gamma = \arg \max\left\{ {{S_1} < \mathop \sum \limits_{\gamma = 2}^n \left( {\frac{1}{\gamma }\mathop \sum \limits_{j = 1}^\gamma {{\left( {{y_j} - {{\bar y}_\gamma }} \right)}^2}} \right)} \right. < {S_2}} \right\}$ (10)

通过以上推论得到主要改进的公式:

${S_1} = \bar \delta *\left( {1 - {n_1}} \right)$ (11)
${S_2} = \bar \delta *\left( {1 + {n_2}} \right)$ (12)

其中, i=1或2, ni∈(–1, 1), S1S2即为整个数据集的方差阈值上下限. yjj个点的定子温度; ${\bar y_\gamma }$ 为第1到第γ个点的定子温度平均数, γ为常数.

2 清洗、建模与测试 2.1 环境温度作为第二输入参数

根据SCADA系统所采集的数据, 发电机电流是最能影响发电机定子温度的参数, 在未进行数据清洗的情况下, 输入参数只有发电机电流所测试的MSE结果为21.6341左右, 这时考虑到发电机外界因素环境温度的影响, 进行一次输入参数为发电机电流和环境温度所测试的MSE结果为12.5506左右, 相比单输入参数, 数据集在精度上得到了明显的提升.

2.2 与发电机电流和环境温度

根据上文中提到的方法和方差阈值S, 首先通过式(10)、式(11)和式(12)调整整个方差阈值上限S2, 同时暂时将S1定为0, 再根据 $0 < S < \bar \delta *\left( {1 + {n_2}} \right)$ , 为了确定最佳上下限幅值, 通过表2实验的结果可以看出, 上下限幅值不宜过高, 按照原定的0~1(100%)为最优上下限幅值.

表 2 设定上下限幅值后方差阈值实验结果

为了更进一步地降低MSE值, 开始表3的实验.

表 3 调整方差阈值S下限后的实验结果

表3可见当确定了方差阈值的下限, 整体的MSE得到了明显的下降, 该数据集的精度和使用可靠性也提高了不少.

2.3 测试改进OIV清洗后的效果

接下来需要对本文中的改进OIV算法进行测试, 首先从SCADA系统采集的数据进行算法数据清洗, 采用神经网络, 输入参数为清洗之后的相关特征量和前一时段的发电机定子温度, 输出为清洗之后的发电机温度参数.

图 4 $\bar \delta *0.5 < S < \bar \delta *1.5$ 所得到的发电机定子温度曲线图

根据式(9)、(10)、(11)、(12)和表3所提供的信息, 为了建立神经网络模型, 设n1=n2=0.5, 经过改进OIV算法, 得到图4所示, 提取正常数据集.

为了验证本文所提到的数据清洗方法OIV算法的精确度, 从风电场SCADA系统中下载了2016年1月1日00时00分00秒至6月31日23时59分59秒的数据进行实验验证, 其中包含了发电机电流、环境温度、发电机定子温度. 由于数据量过于庞大, 在使用前先按照IEC61400-12的标准进行十分钟平均化, 所得结果如表4所示, 并结合定子温度曲线来评估发电机定子的状态.

表 4 风电场SCADA数据经10 min平均化后的数据

将2015年5月的数据作为测试量使用原OIV算法和使用改进OIV算法的两种情况分别进行的模型测试实验结果见图5, 见图6.

对比图5图6可以看出, 改进OIV清洗后得到的数据集所建立的模型在预测过程中, 可见改进OIV算法的清洗功能的精度高且可靠.

为了确定该模型的可行性, 将此模型进行实时预测, 实时使用的数据量为2017年4月到6月, 如图7可以看出, 预测值和真实值整体的趋势非常相似, 再通过如图8的误差值可以看出, 这实时三个月期间, 存在那么多处误差高于2℃的时刻, 并通过SCADA系统实时报备的信息对应, 温度偏高、定子异常、温度数据读取错误等异常点信息基本上一一对应, 可见该方法可行.

图 5 进行原OIV清洗直接做的测试结果

图 6 进行改进OIV清洗之后做的测试结果

图 7 实时2017年4月至6月进行的预测波形图

图 8 实时预测误差结果图

3 结论

为解决发电机定子温度的预测前期数据预处理复杂的问题, 利用SCADA系统采集相关数据, 结合发电机理论中有关定子的温度参数, 提出了一种基于风电场SCADA数据定子温度的预处理算法, 并通过实验和改进得到了一个较为理想的方法, 得到以下结论.

原有的最优组方差(OIV)算法可以清洗非正常数据集, 提取正常数据集, 但通过实验表明原有的方差阈值单向区域的定义和实验结果发现该算法在精度上还不够, 故将此进行了双向改进, 定义了S1S2, 且通过实验证明了改进OIV更适用于定子温度预测数据预处理. 对于现有的风电场的条件, 结合SCADA系统采集的数据, 本文所提到的改进最优组内方差算法(OIV), 计算过程简单易懂, 通用性强. 很好的解决了对于庞大的SCADA数据去差取优困难的问题, 加快了整个数据预处理的过程, 结合神经网络工具箱的测试功能, 为之后的预测及故障诊断工作作出一个很好的基础.

参考文献
[1]
李俊峰, 蔡韦波, 乔黎明, 等. 2013中国风电发展报告. 北京: 中国储能网, 2013.
[2]
陈雪峰, 李继猛, 程航, 等. 风力发电机状态监测和故障诊断技术的研究与进展. 机械工程学报, 2011, 47(9): 45-52.
[3]
Lu B, Li YY, Wu X, et al. A review of recent advances in wind turbine condition monitoring and fault diagnosis. Proceedings of 2009 IEEE Power Electronics and Machines in Wind Applications. Lincoln, NE, USA. 2009. 1–7.
[4]
秦常贵. SCADA系统及其在风力发电场的应用. 电力设备, 2004, 5(12): 31-33.
[5]
Feng YH, Qiu YN, Crabtree CJ, et al. Monitoring wind turbine gearboxes. Wind Energy, 2013, 16(5): 728-740.
[6]
Gray CS, Watson SJ. Physics of failure approach to wind turbine condition based maintenance. Wind Energy, 2010, 13(5): 395-405.
[7]
Popa LM, Jensen BB, Ritchie E, et al. Condition monitoring of wind generators. Proceedings of the 38th IAS Annual Meeting on Conference Record of the Industry Applications Conference. Salt Lake City, UT, USA. 2003, 3: 1839–1846.
[8]
Nandi S, Toliyat HA. Condition monitoring and fault diagnosis of electrical machines—a review. Proceedings of the 34th IAS Annual Meeting. Conference Record of the 1999 IEEE Industry Applications Conference. Phoenix, AZ, USA. 1999, 1. 197–204.
[9]
赵海森, 刘晓芳, 杨亚秋, 等. 基于时步有限元分析的超高效电机定子槽形优化设计. 中国电机工程学报, 2011, 31(33): 115-122.
[10]
娄建楼, 胥佳, 陆恒, 等. 基于功率曲线的风电机组数据清洗算法. 电力系统自动化, 2016, 40(10): 116-121.
[11]
马幼捷, 杨海珊, 周雪松, 等. 基于人工神经网络的风电场建模. 中国电力, 2010, 43(9): 79-82.
[12]
代悦. 神经网络在火电厂建模中的应用[硕士学位论文]. 保定: 华北电力大学(保定), 2003.
[13]
Tallam RM, Habetler TG, Harley RG, et al. Neural network based on-line stator winding turn fault detection for induction motors. Proceedings of Conference Record of the 2000 IEEE Industry Applications Conference. Rome, Italy. 2000, 1. 375–380.