计算机系统应用  2021, Vol. 30 Issue (4): 277-282   PDF    
基于门控循环单元网络的输电杆塔螺栓紧固检测
鲁炜1, 顾安琪2, 骆昊骏1, 朱炜1, 王火根3, 文颖2     
1. 上海电力高压实业有限公司, 上海 200062;
2. 华东师范大学, 上海 200062;
3. 上海曦途信息科技有限公司, 上海 200437
摘要:输电塔杆螺栓紧固检测是保障高压电网安全的重要依据, 传统的人工检测方法需要员工爬上输电杆塔检测操作, 通常伴有一定程度的风险, 而采用无人机巡检受许多外在的因素的影响, 其检测效果并不理想. 因此, 本文提出一种基于门控循环单元网络的输电杆塔螺栓紧固检测方法, 利用振动传感器和传感分析仪构建一套采集输电铁塔声波数据的作业流程, 提取训练样本中声波数据的线性预测倒谱系数LPCC构成特征向量; 训练门控循环单元网络(Gated Recurrent Unit, GRU)分类模型从而检测未知紧固状态的声波样本, 实验结果达到实用分析性能. 通过本算法的应用, 解决了在检测输电铁塔螺栓紧固问题上传统方法上的人力和方法性能问题.
关键词: 声波数据采集    线性预测倒谱系数    门控循环单元网络    
Transmission Tower Bolt-Fastening Detection Based on Gated Recurrent Unit Network
LU Wei1, GU An-Qi2, LUO Hao-Jun1, ZHU Wei1, WANG Huo-Gen3, WEN Ying2     
1. Shanghai Electric High Voltage Industrial Co. Ltd., Shanghai 200072, China;
2. East China Normal University, Shanghai 200072, China;
3. Xitu Information Technology Co. Ltd., Shanghai 200437, China
Foundation item: National Natural Science Foundation of China (61773166)
Abstract: The bolt-fastening detection of transmission towers is critical to the safety of high-voltage power grids. Traditional detection methods are often risky it needs manual detection high on transmission towers. What’s more, UAV detection fails to live up to our expectation affected by multiple external factors. Therefore, this study proposes a bolt-fastening detection method for transmission towers based on Gated Recurrent Unit (GRU) networks. Specifically, the vibration sensor and sensor analyzer are used to construct a work flow for collecting acoustic wave data of transmission towers, and then the Linear Predictive Cepstral Coefficients (LPCCs) of acoustic wave data in training samples are extracted to form feature vectors. The classification model of GRU networks is trained to predict unknown fastened acoustic wave samples. As a result, this method is practical. The application of this algorithm can avoid the much manpower of traditional ones and is superior to them in bolt-fastening detection of transmission towers.
Key words: acoustic data collection     linear prediction cepstral coefficient     Gated Recurrent Unit (GRU) network    

1 简介

随着经济社会发展, 人民生活水平提高, 全社会对供电可靠性的要求越来越高, 政府部门、电力监管机构、媒体网络对电网安全高度关注, 对停电事件的容忍度愈发苛刻, 电网安全压力进一步加大. 运维检修作为电网企业核心业务单元之一, 在保障电网设备安全健康、支撑大电网安全运行等方面发挥了重大作用, 所以提高电网运维检修高效性和便捷性对电网的安全运行具有重大的意义和价值. 输电铁塔上的螺栓由于拆装方便、利于检修等诸多优点, 广泛应用于输电铁塔上, 其连接的可靠性直接关系到输电线路的安全运行. 目前的输电系统例如输电杆塔由于长期处于动态风载荷中, 所以容易诱发杆塔组件间的螺栓松动问题, 威胁杆塔结构安全. 螺栓是输电系统中的重要组成部件, 一旦出现故障隐患, 将直接威胁高压电网安全, 甚至造成难以估量的损失. 所以, 定期针对于输电杆塔上螺栓的检测尤为重要. 目前, 输电铁塔螺栓的松动监测主要靠人力攀爬检查, 大大限制了运检效率, 增加人力时间成本; 另有少部分通过视频设备监测方式, 该方式不仅经济成本高, 而且对处于非可视面的螺栓存在检测盲区. 基于上述问题, 提出基于振动波的铁塔螺栓松动检测方案, 用于高效、快速、可靠的检测输电铁塔螺栓松动情况, 进一步的扩展电网运维检修的手段.

提取特征参数是语音识别中的基础, 一般根据不同的语音识别任务和不同的特征提取方法, 可以获得不同种类的语音特征参数, 根据常见的语音识别特征参数提取有: 线性预测分析(Linear Prediction Coefficients, LPC)[1]、感知线性预测系数(Perceptual Linear Predictive, PLP)[2]、Tandem特征[3]和Bottleneck特征[4]、基于滤波器组的Fbank特征(Filterbank)[5]、线性预测倒谱系数(Linear Predictive Cepstral Coefficient, LPCC)[6]、梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC)[7]等. 本文采用的是提取声波信号的线性预测倒谱系数(Linear Predictive Cepstral Coefficient, LPCC), 基于声道模型的重要特征参数. 通过线性预测分析LPC得到线性预测系数, 再通过迭代算法求得LPCC. LPCC丢弃了信号生成过程中的激励信息, 之后用十多个倒谱系数可以代表共振峰的特性, 所以可以在语音识别中取得很好的性能.

针对声波特征的分类, 一些传统的语音识别模型有矢量量化模型[8]、动态时间规整(DTW)[9]、隐马尔可夫模型(HMM)[10]、人工神经网络模型(ANN)[11]、高斯混合模型(Gaussian Mixture Models)结合隐马尔可夫模型(HMM)得到的GMM-HMM模型[12]等. 随着深度神经网络(Deep Neural Network)[13]崛起, 其较强的非线性能力已经远远超过以上传统的语音识别模型, 而卷积神经网络(Convolutional Nerual Network, CNN)[14]的出现更能处理一些具有类似网络结构的数据. 但前馈网络、CNN、对序列数据只能采用固定长度作为输入, 并且他们的信息传递都是单向的, 他们的性能比循环神经网路(Recurrent Neural Network, RNN)[15]要差, 因为传统模型不理解输入的上下文. 但是循环神经网络RNN无法很好处理远距离依赖问题并会出现梯度爆炸消失的问题, 而长短时记忆网络(Long Short-Term Memory, LSTM)[16]网络以及他的变体门控循环控制单元(Gated Recurrent Unit, GRU)[17]网络却可以解决这些问题, 并在保持LSTM的效果的同时又使结果更加简单, 取得了较为不错的性能.

基于以上分析, 本文提出一种基于门控循环单元网络的输电杆塔螺栓紧固检测方法, 首先采用振动传感器和传感分析仪对杆塔进行敲击采集数据, 通过提取采集的声波数据的LPCC特征构建特征向量, 并训练用于分类的(Gated Recurrent Unit, GRU)模型, 进而实现对于螺栓紧固状态的检测. 在现有获得数据中, 我们通过实验验证了提出方法的有效性和较好的分类性能, 并通过与其他分类器进行对别实验, 进一步验证了我们提出的方法的检测准确性.

2 算法

本方法的主要过程由声波预处理、模型训练、螺栓状态检测3个部分组成, 如算法流程图1.

2.1 声波预处理

在原始声波信号数据采集完成后, 为了过滤出采集的声波数据的背景噪声及不相关信息, 更利于GRU模型学习对不同状态的螺栓的分辨, 本文对原始声波信号数据进行声波预处理; 其中预处理方式包括对声波信号进行预加重、分帧、加窗、端点检测等. 具体来说, 预处理可以消除声门效应和一些辐射的影响, 进一步提升声波信号的高频分量, 从而使得声波信号的频谱能趋于平坦, 并且使得声波频谱在整个从低频到高频的频带中, 能够用相同的信噪比来获得频谱, 这样有利于进行频谱分析或者声道参数分析, 通常预加重操作利用数字滤波器来进行声波信号的滤波处理; 在进行预加重后, 对声波信号进行分帧、加窗等操作, 分帧就是将声波信号分成帧长为N的短时声波帧序列. 加窗操作为了有限化数字信号, 将声波信号分成若干个短时声波信号, 常见的几种窗函数有: 矩形窗函数、汉明窗函数、汉宁窗函数, 其中, 汉明窗相比于前两种窗函数更能反映出声波帧的频谱特性, 其频谱具有更平滑的低通特性的同时, 能够避免频谱泄露的问题. 所以本文采用汉明窗对声波信号进行加窗操作, 有效截取声波信号. 端点检测的目的是能够区分开声波信号中的静音段和有音段, 通过在声波信号中找到起始点和终止点, 屏蔽掉无关的声波信号, 得到声波信号的有效长度. 常用的一些端点检测有: 短时能量[18]、短时过零率[19]、双门限能量断电检测算法[20].

图 1 算法流程图

将预处理后的声波数据划分为训练样本集合 ${\mathcal{D}}_{\rm {train}}$ 和测试样本集合 ${\mathcal{D}}_{\rm {test}}$ , 选取训练样本数 $ N=20 $ , 用于训练GRU模型. 其中, 训练样本有其对应的二分类真值向量, 对应其状态为紧固或松动.

2.2 模型训练

针对于训练样本, 对声波数据进行特征提取, 提取其LPCC线性预测倒谱系数构成特征向量. 对于每一个训练样本提取LPCC特征, 具体分为以下几个步骤: 首先对声波频谱进行预加重、分帧、加窗; 通过自相关算法分析得到线性预测系数LPC; 再通过德宾递推算法求解线性预测系数, 最后通过倒谱分析, 获得12阶LPCC特征向量 $ {f}_{i} $ , 作为每一个训练样本的最终的特征向量, 其中i表示第i个训练样本. 其中 $ {f}_{i} $ 的计算可由Matlab和Python语音工具箱完成. 具体流程如图2所示.

图 2 LPCC特征提取流程

在对声波信号进行预处理之后, 进行训练门控循环单元网络(GRU)分类模型. GRU网络是LSTM长短时记忆网络的一种变体网络, 它能够保存长期序列中的信息, 且不会随时间而清除或因为与预测不相关而移除, 并且可以克服RNN无法很好处理远距离依赖的问题, 同时也能解决标准 RNN 的梯度消失问题, GRU网络在保持了LSTM效果的同时又使结构更加简单. 并且对于非序列数据的输入, GRU也可以当作分类器, 其检测准确率高于一些传统的分类器如SVM、KNN、Naive Bayes、DT等. 如图3所示, 首先特征向量 $ {f}_{i} $ 作为GRU网络的输入, 经过GRU单元得到输出, 再连接全连接层和Softmax层, 最终输出长度为2的向量.

图 3 GRU训练过程

本文对使用的基本的GRU网络结构定义如下:在一个GRU单元中, 特征向量 $ {f}_{i} $ 作为GRU单元的输入, 混合前一时间步 $ {h}_{t-1}\in {\mathbb{R}}^{d} $ 隐藏状态和当前时间步 $ {\hat{h}}_{t} $ 隐藏状态作为输出, 并作为下一阶段的输入, 其中d为输出向量维度. GRU网络主要包括两个门: 更新门(update gate) $ {{\textit{z}}}_{t} $ 和重置门(reset gate) $ {r}_{t} $ . 更新门 $ {{\textit{z}}}_{t} $ 是将LSTM网络中的输入门和遗忘门合并, 有助于捕捉时序数据中长期依赖关系, 定义了前面记忆保存到当前时刻的信息量. 重置门 $ {r}_{t} $ 决定过去有多少信息被遗忘, 有助于捕捉时序数据中短期的依赖关系, 决定如何将新的输入信息与前面的记忆相结合. 这两个门控向量决定了哪些信息最终能作为门控循环单元的输出, 它们的特殊之处在于, 能够保存长期序列中的信息, 且不会随时间而清除或因为与预测不相关而移除. $ {W}_{r} $ , $ {W}_{{\textit{z}}} $ , $ {W}_{\hat{h}} $ 分别对应相应的权重. 其中 $ {X}_{t} $ 为第 t个时间步的输入向量, 即输入序列 X 的第 t 个分量. $ {\hat{h}}_{t} $ 为当前时间步候选隐藏状态, $ {h}_{t-1} $ 保存的是前一个时间步t−1 隐藏状态, $ {h}_{t} $ 为当前时间步最终隐藏状态, GRU网络的更新状态可由如下公式表示:

${Z_{\rm{t}}} = \sigma \left( {{W_Z} \cdot \left[ {{h_{t - 1}},{X_t}} \right]} \right)$ (1)
${r_t} = \sigma \left( {{W_r} \cdot \left[ {{h_{t - 1}},{X_t}} \right]} \right)$ (2)
$\widetilde {{h_t}} = \tanh \left( {{W_{\widetilde h}} \cdot \left[ {{r_t} * {h_{t - 1}},{X_t}} \right]} \right)$ (3)
${h_t} = \left( {1 - {Z_t}} \right) * {h_{t - 1}} + {Z_t} * \widetilde {{h_t}}$ (4)

式中, [ ]表示两个向量相连接, *表示矩阵元素相乘. $ \mathrm{\sigma } $ 表示Sigmoid函数

门控循环单元不会随时间而清除以前的信息, 它会保留相关的信息并传递到下一个单元, 因此它利用全部信息而避免了梯度消失问题.

在对GRU网络结构初始化时, 设置GRU隐藏单元的数量 $ numHiddem=30 $ , 分类类别数量 $ numClass= 2 $ , 特征维数 $ D=24 $ , 最大迭代次数 $ maxEpoch=40 $ , 批大小 $ miniBatchSi{\textit{z}}e=512 $ , 选择随机梯度下降(SGD)算法进行优化, 损失函数选择交叉熵损失. 通过迭代过程进行训练; 每一次迭代通过前向传播计算交叉熵损失, 最小化目标函数, 并通过反向传播更新模型参数, 最终得到GRU分类模型.

3 实验分析 3.1 数据采集及分析

实验所采集的数据是来自上海电力公司, 输电铁塔上测得的数据, 现场的3座输电铁塔上的所有配件及结构与实际输电贴、铁塔相同, 具有非常好的实验测试条件. 实验首先在铁塔本体上产生标准化的振动, 然后检测振动回波, 通过对螺栓在紧固时的振动波形和松动时的振动波形对比, 识别判断螺栓的松动状态. 过程如图4所示. 具体测试步骤如下.

图 4 声波数据采集过程

1) 将振动传感器安装在铁塔的基柱上, 距离输电铁塔底座约1 m处.

2) 通过软件调试、频谱校核, 确定传感器中心频率参数等.

3) 利用回弹仪分别在安装振动传感基柱、相邻基柱和对角基柱各激振一次, 所有激振的基柱相对位置相同, 记录监测数据.

4) 松动安装有传感器基柱的上一固定位置的螺栓1个, 利用回弹仪在其他基柱上各激发振动一次, 记录监测数据; 松动2个螺栓, 利用回弹仪在其他基柱上各激发振动一次, 记录监测数据; 松动基柱斜承处1个螺栓, 利用回弹仪在其他基柱上各激发振动一次, 记录监测数据.

采集的声波波形数据如图5. 可以看到未松动螺栓敲击的波形比较稳定, 而松动的波形则有不同的显示, 这组特征可以作为训练模型的输入数据进行分析.

图 5 样本波形图

此外, 实验分析了样本数据直方图, 如图6所示. 本实验对此特征也进行学习.

实验对每段音频数据提取12阶LPCC特征, 这些特征作为模型学习样本, 训练GRU模型并对测试样本进行测试.

图 6 样本统计图

因此, 本文对3组不同特征进行实验对比, 即: 波形特征、统计特征和LPCC特征作为输入, 采用GRU深度模型进行训练分析, 得出实验结果.

3.2 对比实验

本实验对10个杆塔进行数据采集, 每个杆塔4个基柱, 每个基柱在紧固和松动螺栓状态下各击10次, 得到紧固和松动声波数据分别为400组, 随机选用600组数据用作训练模型, 200组数据用于测试, 实验测试5次, 取平均结果作为测试结果. 通过对上述采集的数据进行训练, 对比测试GRU和4种分类器的性能, 具体为: KNN、Naive Bayes、SVM、DT模型,以及其他4种网络: DNN、RNN、LSTM进行比较. 实验中采用bootstrap随机抽样的方法验证相比于其他模型, 训练模型的准确性, 其中采样次数n=5. 实验对比结果如表1所示, 可以看到GRU模型比其他3种分类器的准确率较高, 同时准确率也高于其他4种网络, 而采用LPCC特征结合GRU的检测结果达到94.54%.

表 1 不同模型检测准确率比较

3.3 测试结果

上述实验结果显示采用LPCC+GRU方法检测效果最后, 本实验就此方法对杆塔中不同基柱的测试样本进行检测对比, 其结果如表2所示. 可以看出, 本文所提出的检测方法, 检测精度最高可以达到98.43%, 最低可到89.39%. 表2可以看出, 基柱的检测螺栓不论紧固还是松动的检测率最高, 相邻基柱的其次, 对角基柱的检测率最低, 这是因为松动实验的螺栓在基柱上. 实验结果显示, 无论松动的螺栓在杆塔的任何位置, 通过敲击基柱的方法都可以较好地检测螺栓的状态.

表 2 不同基柱的螺栓松动检测结果

4 结论与展望

本文针对输电系统螺栓紧固检测这一问题, 实现了一种基于门控循环单元网络的输电杆塔螺栓紧固检测方法. 首先, 采用振动传感器和传感分析仪对杆塔进行敲击采集数据, 然后对数据进行预处理、特征提取自相关算法分析得到线性预测系数LPC, 而后经过倒谱分析等获得12阶线性预测倒谱系数LPCC. 最后, 训练用于对螺栓紧固状态分类预测的门控循环控制单元网络GRU, 对未知状态的螺栓进行紧固与否的检测. 实验结果表明, GRU网络检测准确率高于其他传统的分类器, 本文提出的方法可以有效应用在高压输电铁塔螺栓紧固状态检测上.

参考文献
[1]
张玲华, 郑宝玉, 杨震. 基于LPC分析的语音特征参数研究及其在说话人识别中的应用. 南京邮电学院学报, 2005, 28(6): 1-6.
[2]
蔡尚, 金鑫, 高圣翔, 等. 用于噪声鲁棒性语音识别的子带能量规整感知线性预测系数. 声学学报, 2012, 37(6): 667-672.
[3]
Zheng X, Wu ZY, Shen BB, et al. Investigation of tandem deep belief network approach for phoneme recognition. 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver, BC, Canada. 2013.7586–7590.
[4]
田垚, 蔡猛, 何亮, 等. 基于深度神经网络和Bottleneck特征的说话人识别系统. 清华大学学报(自然科学版), 2016, 56(11): 1143-1148.
[5]
张德良. 深度神经网络在中文语音识别系统中的实现[硕士学位论文]. 北京: 北京交通大学, 2015.
[6]
余建潮, 张瑞林. 基于MFCC和LPCC的说话人识别. 计算机工程与设计, 2009, 30(5): 1189-1191.
[7]
Han W, Chan CF, Choy CS, et al. An efficient MFCC extraction method in speech recognition. 2006 IEEE International Symposium on Circuits and Systems. Island of Kos, Greece. 2006. 4.
[8]
Gersho A, Cuperman V. Vector quantization: A pattern-matching technique for speech coding. IEEE Communications Magazine, 1999, 21(9): 15-21.
[9]
刘敬伟, 徐美芝, 郑忠国, 等. 基于DTW的语音识别和说话人识别的特征选择. 模式识别与人工智能, 2005, 18(1): 50-54.
[10]
刘鸣, 戴蓓倩, 李辉, 等. 鲁棒性话者辨识中的一种改进的马尔科夫模型. 电子学报, 2002, 30(1): 46-48.
[11]
林坤辉, 息晓静, 周昌乐. 基于HMM与神经网络的声学模型研究. 厦门大学学报(自然科学版), 2006, 45(1): 44-46.
[12]
Swietojanski P, Ghoshal A, Renals S. Revisiting hybrid and GMM-HMM system combination techniques. IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver, BC, Canada. 2013. 6744–6748.
[13]
Hinton G, Deng L, Yu D, et al. Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. IEEE Signal Processing Magazine, 2012, 29(6): 82-97. DOI:10.1109/MSP.2012.2205597
[14]
Masci J, Meier U, Ciresan D, et al. Steel defect classification with max-pooling convolutional neural networks. The 2012 International Joint Conference on Neural Networks (IJCNN). 2012. 1–6.
[15]
Yi JY, Ni H, Wen ZQ, et al. Improving BLSTM RNN based Mandarin speech recognition using accent dependent bottleneck features. 2016 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA). Jeju, Republic of Korea. 2016. 1–5.
[16]
Yi YY, Wen ZQ, Tao JH, et al. CTC regularized model adaptation for Improving LSTM RNN based multi-accent Mandarin speech recognition. Journal of Signal Processing Systems, 2017, 90(7): 985-997.
[17]
Ravanelli M, Brakel P, Omologo M, et al. Light gated recurrent units for speech recognition. IEEE Transactions on Emerging Topics in Computational Intelligence, 2018, 2(2): 92-102. DOI:10.1109/TETCI.2017.2762739
[18]
王钟斐, 王彪. 基于短时能量-LPCC的语音特征提取方法研究. 计算机与数字工程, 2011, 40(11): 79-80, 127.
[19]
刘晓明, 覃胜, 刘宗行, 等. 语音端点检测的仿真研究. 系统仿真学报, 2005, 17(8): 1974-1976.
[20]
Li Q, Zheng JS, Tsai A, et al. Robust endpoint detection and energy normalization for real-time speech and speaker recognition. IEEE Transactions on Speech and Audio Processing, 2002, 10(3): 146-157. DOI:10.1109/TSA.2002.1001979
[21]
Hastie T, Tibshirani R. Discriminant adaptive nearest neighbor classification. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1996, 18(6): 607-616.
[22]
Rish I. An empirical study of the naive Bayes classifier. IJCAI 2001 Workshop on Empirical Methods in Artificial Intelligence. New York, NY, USA. 2001. 41–46.
[23]
Cortes C, Vapnik V. Support-vector networks. Machine Learning, 1995, 20(3): 273-297.
[24]
王海瑜, 潘泉, 张洪才, 等. 基于多支持向量机的DT算法研究及应用. 计算机工程与应用, 2004, 40(18): 83-84, 143.