基于标签技术和熵权法的缺陷推荐研究
  计算机系统应用  2018, Vol. 27 Issue (8): 187-192   PDF    
基于标签技术和熵权法的缺陷推荐研究
齐敬先1, 刘翌2, 蒋宇2, 闫训超1, 杨剑1     
1. 南瑞集团(国网电力科学研究院)有限公司, 南京 211000;
2. 国网江苏省电力有限公司, 南京 211000
摘要:针对电力系统, 设备(资产)运维管理系统(PMS)与调度管理系统(OMS)之间的设备缺陷互联需要PMS运维人员进行主观判断及手动选择操作, 导致人员工作量大幅增加且数据交互的不合理程度和不完备程度也逐渐增大, 本文提出了基于标签技术和熵权法的缺陷推荐方法. 该方法首先以基于正向最大匹配算法、编辑距离和规则库的标签技术对缺陷数据进行标签化标识, 然后采用熵权法对其标签进行评价, 进而实现向调控员进行智能化推荐缺陷的目的. 实验结果表明, 通过该缺陷推荐方法的实施, 显著减少了运维人员的缺陷选择工作量, 并提升了缺陷信息推荐的准确性.
关键词: 熵权法    标签    正向最大匹配法    编辑距离    缺陷    推荐    
Research on Device Defect Recommendation Based on Tag Technology and Entropy Weight Method
QI Jing-Xian1, LIU Yi2, JIANG Yu2, YAN Xun-Chao1, YANG Jian1     
1. Nari Group Corporation (State Grid Electric Power Research Institute), Nanjing 211000, China;
2. State Grid Jiangsu Electric Power Co. Ltd., Nanjing 211000, China
Foundation item: Science and Technology Project of Jiangsu Electric Power Co. Ltd. (J2017007)
Abstract: According to the equipment defect interconnection between the Production Management System (PMS) and the Operation Management System (OMS) requires the PMS maintenance staff to choose the defects personally, resulting in staff workload increased significantly and the extent of unreasonable data interaction. At the same time, the incomplete degree of interconnection is gradually increased. The study proposes a recommendation defects method based on tag technology and entropy coefficient method. Firstly, the forward maximum matching algorithm and edit distance and rule database technologies are being used for tagging defects identification, and then using entropy weight method to evaluate the label, in order to achieve the intelligent recommendation to relevant personnel. The experimental results show that the implementation of the proposed method greatly reduces the workload of the relevant personnel, and improves the accuracy of the defect information recommendation.
Key words: entropy weight method     tag     forward maximum matching     edit distance     defect     recommend    

随着智能电网及能源互联网的逐步发展, 大运行体系与大检修体系数据共享及业务协同的实用化水平的逐步提高, 设备(资产)运维管理系统(PMS2.0)与调度管理系统(OMS2.0)的互联互通也逐渐得到推动, 进一步推进了设备巡视记录和电网运行数据在OMS和PMS系统之间的互传, 提高数据共享水平. 另一方面, 大数据技术的深入应用为各行业的快速发展提供了技术保障, 如何将其充分应用于电力行业, 并提升电力行业数据存储、处理、分析及展示能力是当前研究的重点. 文献[1]阐述了智能电网应用相关的电力大数据技术, 该技术的应用对电力行业的可持续发展和坚强智能电网的建立意义重大. 文献[2]对未来互联特大电网的运行控制进行了需求分析, 提出了“物理分布、逻辑统一”的全网集散式调度与控制技术支持系统架构. 文献[3]描述了大能源与大数据的融合, 阐述电力大数据的特征及应用特点. 文献[4]对配电网故障发生情况进行了多源数据分析, 从而避免了数据孤岛并提升了数据应用的完备性. 文献[58]对变压器运行状态构建评估模型, 梳理评价指标及指标权重. 文献[9,10]对电力系统的脆弱性评估方法进行总结, 并提出了一种基于契合度和零注入失败量的状态估计可信度评价方法. 文献[11,12]阐述两种数据匹配及解析方法. 文献[13]描述了数据标签在各领域的使用情况.

在此背景下, 基于OMS与PMS设备缺陷管理流程互联接口技术规范逐步应用于系统之间设备缺陷数据的交互. 文献[1419]对电力缺陷进行了阐述, 主要从管理角度对缺陷的闭环管理及如何减少缺陷进行规范. 由于运检人员与调控人员关注的电网设备及电网缺陷类别不同, 导致在进行流程互联互通时, 需要通过双方人员主观判断及手动选择其发现的缺陷, 然后启动PMS和OMS系统的集中缺陷管理流程进行数据交互, 导致缺陷发起人员需要进行大量的人工筛选工作及与现场人员的沟通工作, 同时提升了数据交互的不合理程度和不完备程度.

本文提出了一种基于标签技术和熵权法的缺陷推荐方法, 该方法首先采用基于正向最大匹配算法、编辑距离算法及规则库的标签技术对源缺陷数据进行分类处理, 然后采用熵权法对缺陷类别标签进行综合客观评估, 进而向对端系统(如OMS)进行缺陷推荐, 达到智能化筛选并进行智能推荐的目的.

1 缺陷对象描述

设备缺陷是指运行或备用的设备、设施出现影响电网安全运行或设备健康水平的一切异常现象[1419]. 设备缺陷管理是保障电网安全运行的重要措施. 缺陷根据其严重程度分为危急缺陷、严重缺陷、一般缺陷. 危急缺陷是指设备或设施发生直接威胁安全运行并需立即处理的缺陷, 否则, 随时可能造成设备损坏、人身伤亡、大面积停电、火灾等事故. 严重缺陷是指对人身、电网或设备有重要威胁, 暂时尚能坚持运行但需尽快处理的缺陷. 一般缺陷是指危急、严重缺陷以外的缺陷, 指性质一般, 程度较轻, 对安全运行影响不大的缺陷.

设备种类繁多且缺陷类别多样, 导致运检人员在发现缺陷时, 需要手动确认该缺陷是否属于调控关注的缺陷类别, 然后确认是否需要启动缺陷交互流程; 同样, 调控人员也要手动确认运检人员关注的缺陷, 随后才能进行缺陷交互. 本文为了实现缺陷的智能推荐, 在进行缺陷流程发起时, 对于设备缺陷的描述要详细、准确, 故而对其缺陷定义如下:

(TYPE, START_TIME, END_TIME, ST_NAME, ST_ID, FOUND_CORP, FOUND_PERSON, VOL_LEVEL, DEV_TYPE, DEV_NAME, DEFECT_LEVEL, DEFECT_DESP, PROCESS_LIMITED), 分别表示类别、开始时间、结束时间、消缺时间、变电站名称、变电站ID、发现单位、发现人、电压等级、设备类型、设备名称、缺陷等级、缺陷描述、处理时限.

通过对PMS发现缺陷和OMS发现缺陷进行如上对象化描述, 不仅能够对缺陷进行结构化管理, 同时便于进行缺陷分析.

2 缺陷对象标签化

标签本质上是资源的元数据, 是用来描述、解释、定位信息源, 并使其易于获取、使用、管理的结构化信息[10]. 通过对数据进行标签化处理, 可以获取到对数据的多维度精炼化的特征标识, 进而便于对数据进行分析. 在进行标签设计时, 应适应具体应用功能, 选取一个或多个最能表达数据对象特性的关键词组, 从而能够以更简洁、更精炼的方式表达数据特性, 以提高数据应用和挖掘过程中的效率. 为了采用标签技术对缺陷数据进行标识, 首先对原始缺陷记录进行预处理.

2.1 基于正向最大匹配算法的标签提取

鉴于缺陷描述信息的非结构化特征及缺陷类别的相对稳定性, 本文首先采用正向最大匹配分词算法对缺陷记录进行标签化[11]. 正向最大匹配算法是以词典为依据, 从左向右将待分词文本中的多个连续字符与词典匹配, 如果匹配上, 则切分为一个词. 其算法思路如下:

1) 待分割字符串S, 即缺陷描述信息, 其长度为maxLength, 取其首字母;

2)以首字母对缺陷字典库进行排序, 其长度由长到短, 选择的词表长度不大于maxLength;

3) 将选择的词表由长到短分别与字符串S分别进行匹配;

4) 若出现了与字符串S完全匹配的缺陷词, 则截取这个缺陷词, 进行保存;

5) 将字符串S中已经匹配的子串剪去, 剩下的字符串继续返回步骤2);

6) 直到字符串S没有字符可以匹配或者剩下的字符无法从缺陷字典库中找到对应的缺陷词, 则停止对字符串S的检索.

通过分词处理, 将缺陷数据以电力设备缺陷字典库为基础进行标签化标识.

2.2 基于相似度计算的标签匹配

本文以电力缺陷字典库为基础, 构建缺陷分类标签; 然而, 由于缺陷人为编写的实际情况, 导致很多缺陷描述信息不能够完全匹配缺陷字典库, 故而本文首先采用相似度计算确认未获得与缺陷字典库一致的缺陷记录, 判定其相似度是否超过设置的阈值, 若超过阈值, 则可以将该缺陷记录进行标签化; 否则, 采用规则库来进行标签确认.

2.2.1 基于编辑距离的相似度计算

编辑距离定义: 设s[1..i], t[1..j]两个字符串, 编辑距离即为把s转换成t需要的最少删除、插入和替换的次数. 两个字符串相互转换需要经过的步骤越多, 差异越大. 其操作步骤如下:

1) 设源字符串s的长度为n, 目标字符串t的长度为m; 如果n=0, 则返回m; 如果m=0, 则返回n;

2) 构造一个矩阵d[m+1,n+1], 初始化矩阵的第一行值为0..n; 初始化矩阵的第一列值为0..m;

3) 检查st中的每个字符;

4) 如果s[i]=t[j], 则编辑代价cost为0; 如果s[i]!=t[j], 则编辑代价cost为1;

5) 设置矩阵单元格d[i, j]的值为下面的最小值:

① 正上方单元格的值加1: d[i–1, j]+1;

② 左边单元格的值加1: d[i, j–1]+1;

③ 对角线单元格的值加上编辑代价cost的值: d[i–1, j–1]+cost;

6)在完成迭代步骤4)至步骤6)之后, d[m, n]即是编辑距离的值.

2.2.2 编辑距离算法优化

传统的编辑距离算法在进行字符串匹配时, 未考虑字符串长度对相似度计算结果的影响, 同时, 以单个字符进行的匹配导致算法准确率和效率较低, 故而对该算法进行优化:

(1)首先以电力词库为基础, 采用正向最大匹配分词算法对缺陷描述信息进行分词处理;

(2) 对步骤3)的字符串s和字符串t检查其每个分词;

(3) 对步骤4), 编辑代价cost以字符串s和字符串t的分词语义分析结果为依据, 若s[i]同义于t[j], 则cost=1; 否则, cost=0.

假设源字符串s与目标字符串t长度的最大值为Lmax, 编辑距离为LD, 则相似度S其计算公式如下:

$S = \left(1 - \frac{{LD}}{{{L_{\max }}}}\right) \times 100\% $ (1)

本文采用优化后的编辑距离算法进行缺陷标签化操作.

2.3 基于规则库的标签确认

为了弥补缺陷提取方式及缺陷匹配方式的不足, 本文构建了用于标签化的规则库, 该库基于专业运行人员和管理人员的理论基础及直接和间接的经验积累, 基于语义分析进而确认缺陷信息与缺陷字典库的映射关系, 提高缺陷描述信息标签化的可靠性和准确度.

随着标签提取和标签匹配过程的逐步深入, 以及规则库的逐步完善, 将达到智能化标签生成的目的.

3 熵权法

信息论是一门将信息作为研究对象, 以揭示信息的本质特性及规律为基础, 应用数学方法来研究信息存储、传输、处理、控制和利用等一般规律的科学[5]. 信息熵可以用来度量一个系统的无序和杂乱程度. 熵值越大, 系统中的数据越无序. 熵权法是一种客观赋权法, 其根据各指标的变异程度, 利用信息熵进行指标熵权的计算, 进而赋予各指标较为客观的权重. 该算法的流程如下:

第一步, 构建初始化分析矩阵 $R = ({{{r}}_{ij}})_{m \times n}$ :

$R = \left[ {\begin{array}{*{20}{c}} {{r_{11}}}&{{r_{12}}}&{\cdots}&{{r_{1n}}} \\ {{r_{21}}}&{{r_{22}}}&{\cdots}&{{r_{2n}}} \\ {\vdots}&{\vdots}&{\vdots}&{\vdots} \\ {{r_{m1}}}&{{r_{m2}}}&{\cdots}&{{r_{mn}}} \end{array}} \right]$ (2)

其中, m表示待引入的调控员数量; n为调控员关注的标签种类; ${{r}_{ij}}$ 表示第j个标签类别下第i个调控员的关注量.

第二步, 对初始化矩阵进行无量纲化处理:

$j$ 为正指标,

${{r}}_{ij}' = \frac{{{r_{ij}} - {\rm{Min}}({r_{ij}})}}{{{\rm{Max}}({r_{ij}}) - {\rm{Min}}({r_{ij}})}}$ (3)

$j$ 为逆指标,

${{r}}_{ij}' = \frac{{{\rm{Max}}({r_{ij}}) - {r_{ij}}}}{{{\rm{Max}}({r_{ij}}) - {\rm{Min}}({r_{ij}})}}$ (4)

其中, ${\rm{Min}}({r_{ij}})$ 表示第j列数值的最小值; ${\rm{Max}}({r_{ij}})$ 表示第j列数值的最大值. 本文采用正指标方式进行处理, 形成新的矩阵 ${R'} =( {{r}}_{{{ij}}}')_{m \times n}$ ,

${R'} = \left[ {\begin{array}{*{20}{c}}{r_{{\rm{11}}}'}&{r_{12}'}&{\cdots}&{r_{1n}'}\\{r_{21}'}&{r_{22}'}&{\cdots}&{r_{2n}'}\\{\vdots}&{\vdots}&{\vdots}&{\vdots}\\{r_{m1}'}&{r_{m2}'}&{\cdots}&{r_{mn}'}\end{array}} \right]$ (5)

第三步, 计算第j个标签类别下第i个调控员关注度的概率 ${{{p}}_{ij}}$ :

${{{p}}_{ij}} = \frac{{r_{ij}'}}{{\sum\limits_{i = 1}^m {r_{ij}'} }}$ (6)

即第 ${j}$ 类标签在第 ${i}$ 个调控员关注缺陷数量的占比;

第四步, 计算第j个标签类的信息熵 ${{{e}}_j}$ :

${{{e}}_{{j}}} = - k\sum\limits_{i = 1}^{{m}} {{p_{ij}}\ln {p_{ij}}} $ (7)

其中, $k = \displaystyle\frac{1}{{\ln m}}$ , 若 ${{{p}}_{ij}} = 0$ , 则 ${{{p}}_{ij}}\ln {p_{ij}} = 0$ .

第五步, 计算第j个标签类的熵权 ${{{w}}_j}$ :

${w_j} = \frac{{1 - {e_j}}}{{\sum\limits_{j = 1}^m {(1 - {e_j})} }}$ (8)

为了进一步验证实验结果的正确性, 确认其覆盖率评价指标如下:

$\frac{{\sum\limits_{{{i}} = 1}^n {w{}_i{c_i}} }}{L} \times 100\% $ (9)

其中, ${{w}_{i}}$ 为标签i的熵权计算结果, ${{c}_i}$ 为标签i的出现频次, N为标签类别个数, L为缺陷总数, 该指标越大则说明算法准确率越高.

4 缺陷推荐流程

基于以上步骤, 对缺陷信息进行对象化描述, 通过标签定义分别对运检人员及调控员关注的缺陷信息进行标签化标识. 然后, 基于熵权法对各标签的熵权进行计算, 对熵权大于所设定阈值的标签进行标签推荐, 实现智能化的筛选运检人员及调控员强关注的标签. 其整体流程如图1.

图 1 缺陷推荐流程图

5 算例分析

以某地区调控员记录的缺陷为例, 该地区总共有监控人员15人, 以该地区2015年记录的缺陷为例, 缺陷记录共452条, 通过标签技术及熵权法来对该地区监控人员强关注的缺陷信息进行确认, 进而实现以该缺陷集合为依据进行缺陷推荐.

(1)对缺陷信息基于正向最大匹配算法、编辑距离算法和规则库进行标签化处理.

如“**线**开关SF6气压低闭锁”通过正向匹配可直接与缺陷字典库“SF6气压低闭锁”匹配, 进而被标识为“SF6气压低闭锁”缺陷; “2号主变第一套保护装置通讯中断动作”通过编辑距离算法被标识为“保护装置通信中断”等. 基于原编辑距离算法与改进的编辑距离算法其对比结果如图2.

图 2 编辑距离算法及优化对比结果

图2可得, 采用改进的编辑距离算法对缺陷信息进行标签化, 其覆盖率由28.6%提升到68.4%, 进而采用规则库对缺陷数据进行标签化完善.

(2)基于标签数据构建初始化分析矩阵 $R = {\left( {{{{r}}_{ij}}} \right)_{m \times n}}$ .

$R = \left[ {\begin{array}{*{20}{cccccc}} 2&0&2&\cdots&0&0\\ 0&1&0&\cdots&0&0\\ 0&0&0&\cdots&0&3\\ \vdots&\vdots&\vdots&\vdots&\vdots&\vdots\\ 0&0&2&\cdots&0&0\\ 0&0&0&\cdots&0&0 \end{array}} \right]$

其中, m表示调控员个数, 此处为15; n为标签种类, 通过对缺陷历史数据的分析得出该地区监控人员关注的缺陷总计26类; ${{r}_{ij}}$ 表示某调控员记录的缺陷中某类标签的个数, 数量越多, 则说明关注度越高; 该矩阵即为对调控员关注缺陷的数据标签矩阵.

(3) 本文采用正指标方式对初始化矩阵进行无量纲化处理形成新的矩阵 ${R'} = ({{r}}_{ij}'){_{m \times n}}$ .

$R' = \left[ {\begin{array}{*{20}{c}} {0.667}&0&1& \cdots &0&0 \\ 0&{0.333}&0& \cdots &0&0 \\ 0&0&0& \cdots &0&{0.086} \\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ 0&0&1& \cdots &0&0 \\ 0&0&0& \cdots &0&0 \end{array}} \right]$

(4)计算标签出现的概率 ${{{p}}_{ij}}$ .

${{{p}}_{ij}} = \left[ {\begin{array}{*{20}{c}}0.167&0&0.25&\cdots&0&0\\0&0.1&0&\cdots&0&0\\0&0&0&\cdots&0&0.052\\\vdots&\vdots&\vdots&\vdots&\vdots&\vdots\\0&0&0.25&\cdots&0&0\\0&0&0&\cdots&0&0\end{array}} \right]$

即第 ${j}$ 个标签在第 ${i}$ 个调控员关注信息中的占比;

(5)计算标签的信息熵 ${{{e}}_j}$ .

${{{e}}_j} = \left[ {\begin{array}{*{20}{c}}0.573&0.577&0.545&\cdots&0.499&0.470\end{array}} \right]$

(6) 计算标签的熵权 ${{{w}}_j}$ .

${{{w}}_j} = \left[ {\begin{array}{*{20}{c}} {0.035}&{0.034}&{0.037} &{\cdots}&{0.045}&{0.043} \end{array}} \right]$

(7)基于各标签熵权计算结果及覆盖率阈值, 进行强关注标签筛选及推荐.

由以上结果可知, 根据覆盖率90%的阈值设置及熵权倒序排列, PMS系统可向OMS系统推荐控制回路断线、主变油位异常、保护装置故障、火灾报警、气室SF6气压低告警、事故总告警、直流系统故障、线路无压等缺陷.

对于权重阈值设置主要以缺陷类别覆盖率为基准. 若阈值设置过低, 则推荐的缺陷类别偏多; 若阈值设置过高, 则推荐的缺陷类别偏多, 仅能对个别缺陷实现推荐, 均不能实现推荐信息的合理化.

为了进一步验证该算法的可行性, 搜集另外5个地区的缺陷记录进行算法验证, 其规模描述如下:

表 1 各地区基础信息

表 2 各地区计算结果

实验结果表明, 该算法对于实现系统之间的缺陷推荐效果较好, 同时, 通过对覆盖率的分析可发现B地区发生某类缺陷较多, 可进行重点监视及家族性缺陷分析.

6 结束语

本文提出了一种基于标签技术和熵权法的缺陷推荐方法, 用于OMS和PMS缺陷互联互通时的智能化推荐. 标签技术是大数据时代的产物, 便于对被分析对象进行多维度精炼化的描述, 本文通过正向最大匹配算法、编辑距离算法和规则库技术的应用来辅助实现缺陷记录的标签化标识; 熵权法利用其客观性, 即从数据源自身来确认缺陷类别的被关注程度. 标签技术与熵权法的结合将用户的主观选择与客观评价结合, 并通过对编辑距离算法的优化提升标签标识的准确度, 实验结果表明, 该方法的应用可为相关人员提供可靠的理论参考依据, 减少了调控人员及运检人员的工作量, 进而提升数据交互的智能化水平.

参考文献
[1]
彭小圣, 邓迪元, 程时杰, 等. 面向智能电网应用的电力大数据关键技术. 中国电机工程学报, 2015, 35(3): 503-511.
[2]
姚建国, 杨胜春, 单茂华. 面向未来互联电网的调度技术支持系统架构思考. 电力系统自动化, 2013, 37(21): 52-59. DOI:10.7500/AEPS20130714014
[3]
薛禹胜, 赖业宁. 大能源思维与大数据思维的融合(一)大数据与电力大数据. 电力系统自动化, 2016, 40(1): 1-8. DOI:10.7500/AEPS20151208005
[4]
宋杰, 谢海宁, 杨增辉, 等. 基于多源异构数据挖掘的配电网故障信息统计分析. 电力系统保护与控制, 2016, 44(3): 141-147. DOI:10.7667/PSPC20160322
[5]
张桦, 魏本刚, 李可军, 等. 基于变压器马尔可夫状态评估模型和熵权模糊评价方法的风险评估技术研究. 电力系统保护与控制, 2016, 44(5): 134-140.
[6]
黄大荣, 陈长沙, 孙国玺, 等. 电力变压器故障的客观熵权识别及诊断方法. 电力系统自动化, 2017, 41(12): 206-211. DOI:10.7500/AEPS20161028003
[7]
程崯, 王宇, 余轩, 等. 电力变压器运行状态综合评判指标的权重确定. 中国电力, 2011, 44(4): 26-30.
[8]
熊浩, 孙才新, 张昀, 等. 电力变压器运行状态的灰色层次评估模型. 电力系统自动化, 2007, 31(7): 55-60.
[9]
白加林, 刘天琪, 曹国云, 等. 电力系统脆弱性评估方法综述. 电网技术, 2008, 32(S2): 26-30.
[10]
郭烨, 张伯明, 吴文传, 等. 实际电力系统状态估计可信度评价. 电力系统自动化, 2017, 41(1): 155-160. DOI:10.7500/AEPS20160613001
[11]
鲁华永, 袁越, 郭泓佐, 等. 基于正则表达式的变电站集中监控信息解析方法. 电力系统自动化, 2017, 41(5): 78-82. DOI:10.7500/AEPS20160329006
[12]
许四洋, 柳晓春. 元数据标签的使用情况调查(上). 图书馆杂志, 2001(9): 22-25.
[13]
赵莉. 利用PMS技术加强电力设备缺陷管理. 山东工业技术, 2014(10): 43.
[14]
邢卫东. 浅谈电力设备缺陷管理. 全文版: 工程技术, 2015(12): 226.
[15]
李洪福. 变电设备缺陷管理. 农村电气化, 2008(10): 54-55.
[16]
徐俊杰. 探讨变电设备的缺陷管理. 企业技术开发, 2011, 30(20): 110.
[17]
李军. 电力系统实现设备零缺陷管理措施的探讨. 内蒙古电力技术, 2002, 20(5): 45-46.
[18]
阮征. 浅谈电力设备缺陷闭环管理系统. 工业技术, 2006(1): 11-13.
[19]
Xue YS, Xiao SJ. Generalized congestion of power systems: Insights from the massive blackouts in India. Journal of Modern Power Systems and Clean Energy, 2013, 1(2): 91-100. DOI:10.1007/s40565-013-0014-2