﻿ 基于状态向量的危化品事故分析方法及应用
 计算机系统应用  2019, Vol. 28 Issue (6): 260-267 PDF

1. 中国石油大学(华东) 地球科学学院, 青岛 266580;
2. 中国石化青岛安全工程研究院, 青岛 266071

Analysis Method and Application of Hazardous Chemical Accidents Based on State Vector
LIU Kang-Wei1,2, WAN Jian-Hua1, JIN Xi-Fang1
1. School of Geoscience, China University of Petroleum (Hua Dong), Qingdao, 266580;
2. SINOPEC Qingdao Research Institute of Safety Engineering, Qingdao 266071, China
Foundation item: National Key Research and Development Program of China (2017YFC1405300); Key Research and Development Program of Shandong Province (2018GGX101052)
Abstract: Hazardous chemicals industry is a high risk industry. Explosion, fire, leakage, and poisoning accidents occur frequently. Traditional causality-based accident chain analysis method is limited by the technical basis and assumptions that traditional safety engineering relies on, and cannot adapt to today’s complex systems. Based on the accident causation theory, this study analyses the main factors affecting the formation of dangerous chemicals accidents, constructs a state vector of dangerous chemicals accidents, describes the factors leading to dangerous chemicals accidents comprehensively, and uses the state vector to analyze and forecast dangerous chemicals accidents. The high dimension vector is used to define the accident state, and the most possible factors are considered. Using support vector machine learning algorithm, an accident prediction model is established by accident state vector. A sample test of the hazardous chemical accident shows that the method can differentiate accident state accurately and efficiently, and demonstrate a positive significance on accident prediction of hazardous chemicals.
Key words: hazardous chemical accidents     complexity     state vector     accident prediction

1 危化品事故状态向量 1.1 事故状态向量定义

 图 1 事故复杂性致因模型

(1) 主观评审指标

 $P = \left\{ {P1,P2,\;P3, \cdots, Pm} \right\}$

(2) 客观固有指标

 $D = \left\{ {D1, D2, D3, \cdots, Dn} \right\}$

(3) 环境指标

 $E = \left\{ {E1, E2, E3, \cdots, Et} \right\}$

1.2 基于知识图谱的事故状态向量构建方法

 图 2 危化品知识图谱构建方法

 图 3 基于知识图谱的危化品事故关联因素搜索框架

2 基于状态向量的SVM事故预测方法

SVM具有直观的几何意义, 给定样本集{(xi, yi)| i=1, …,l; xiRn yi∈{+1,1}}, 对于线性可分情况: 支持向量机目标就是寻找一个超平面<w, x> +b = 0将其正确分开, 这样的超平面往往不止一个, 其中与两类样本点间隔Margin最大的分类超平面会获得最佳的推广能力: 即最优分类超平面, 如图4所示. 最优超平面仅由离它最近的样本点所决定, 而与其它样本无关, 这些样本点即所谓的支持向量, 这也正是支持向量机名称的由来[15,16].

 图 4 线性向量机

 $K\left( {xi,\;xj} \right) = \;\;\Phi \left( {xi} \right)\;\;\Phi \left( {xj} \right)$

 图 5 非线性支持向量机

 $\Phi \left( \omega \right) = 1/2\left| {\left| \omega \right|} \right|2$

 $yi\left[ { < \omega ,xi > + b} \right] \ge 1,i = 1, \cdots ,l$

 $max W(\alpha ) = \sum\limits_{i = 1}^l {{\alpha _i} - \dfrac{1}{2}\sum\limits_{i = 1,j = 1}^l {{\alpha _i}Q(i,j){\alpha _j}} }$
 $\sum\limits_{i = 1}^l {{y_i}{\alpha _i} = 0,\quad 0 \leqslant {\alpha _i} \leqslant C,\quad i = 1,\cdots,l}$

 ${\omega ^*} = \sum\limits_{i = 1}^m {{\alpha _i}{y_i}{x_i}}$
 ${b^*} = - \dfrac{1}{2} < {\omega ^*},{x_r} + {x_s} >$

${x_{r,}}{x_s}$ 为任意支持向量, 相应的分类器为:

 $f(x) = {sgn} ( < {\omega ^*},x > + {b^*}) = {sgn} \{ \sum\limits_{i = 1}^m {\alpha _i^*{y_i}K < x,{x_i} > + {b^*}\} }$

 图 6 边界样本集筛选机制示意图

(1) 训练时间: 本文算法与经典SVM算法相比, 在训练时间上有大幅度的减少, 这是因为在增量学习过程中本文算法对新增样本和原有样本进行了有效的筛选, 在保留样本有效信息的前提下, 减少了训练样本的数量, 使增量学习的规模得到了良好的控制, 缩短了训练的时间. 但与传统增量学习算法相比, 在训练时间上略有劣势. 这是因为传统增量学习算法舍弃了原始样本中的非支持向量和新增样本的满足KKT条件的样本. 这种训练样本数量的减少是以牺牲样本有效信息为代价的, 最终将会影响到预测分类的准确率, 如图7所示.

 图 7 算法训练时间比较

(2) 准确率: 本文算法的准确率仅次于经典SVM算法, 与传统的增量学习算法相比有大幅的提高. 非增量学习算法保留了原始样本和新增样本的全部信息, 因此预测准确率较高. 本文算法预测准确率仅次于非增量学习算法, 说明本文算法的筛选机制有效的保留了样本有效信息. 而传统增量学习算法因为舍弃了过多的样本点, 虽然增量学习的样本规模得到了有效的控制, 训练的时间得到了提高, 但是因为丢失了大量样本信息, 最终的预测准确率降低了, 如图8所示.

 图 8 算法预测准确率比较

3 基于状态向量的危化品事故预测应用分析 3.1 危化品事故状态向量构建

 图 9 危化品知识图谱

 图 10 危化品事故状态向量的知识图谱表

3.2 危化品事故预测方法验证

(1) 收集事故状态信息. 危化品事故数据来自于化学品安全网(www.nrcc.org.cn), 共619个事故状态和1288个非事故状态.

(2) 标记事故状态. 其中事故状态为1, 非事故状态为−1;

(3) 将事故状态和非事故状态转化为向量形式, 事故状态向量的格式如下:

<label> <index1>: <value1> <index2>: <value2> … <indexn>: <valuen>

(4) 选取m=500个向量作为初始训练集Vt, 在剩余向量中随机选取900个组成3个集合V1,V2,V3, 作为测试集, 每个测试集样本数量300.

(5) 在训练集Vt上进行支持向量机训练学习, 构建预测超平面f(x).

(6) 利用预测超平面f(x)对测试集V1,V2,V3进行预测, 得出每个向量的预测结果

(7) 与测试集V1,V2,V3标记的原有事故状态进行对比, 鉴定预测结果.

(8) 修改Vt样本数量m的值, 重复步骤(5)~(8), 验证算法.

 图 11 预测准确率对比图

4 结论

 [1] 任继勤, 穆咏雪. 危化品事故的统计分析与管理启示. 化工管理, 2015(16): 28-31. DOI:10.3969/j.issn.1008-4800.2015.16.012 [2] 国家安监总局化学品登记中心. 中国化学品安全网. http://accident.nrcc.com.cn, 2019. [3] 安世宁. 安全生产" 十三五”规划八大要点. 中国安全生产, 2017(2): 13-14. [4] 肖兴志, 郭启光. 中国危化品安全事故频发之谜—基于佩尔兹曼效应视角. 财经问题研究, 2012(11): 31-38. DOI:10.3969/j.issn.1000-176X.2012.11.005 [5] 陈宝智, 吴敏. 事故致因理论与安全理念. 中国安全生产科学技术, 2008, 4(1): 42-46. [6] Leveson N. Engineering a Safer World: SystemsThinking Applied to Safety. Cambridge: MIT Press, 2011. [7] Abdulkhaleq A, Wagner S. A software safety verification method based on system-theoretic process analysis. Bondavalli A, Ceccarelli A, Ortmeier F. Computer Safety, Reliability, and Security. Cham: Springer, 2014. [8] 郑小平, 刘梦婷, 李伟. 事故预测方法研究述评. 安全与环境学报, 2008, 8(3): 162-169. DOI:10.3969/j.issn.1009-6094.2008.03.039 [9] 崔维, 刘士竹. 事故灾难类突发事件风险管理研究——以" 11•22”中石化东黄输油管道泄漏爆炸特大事故为例. 中国应急管理, 2014(6): 16-21. [10] 陈悦, 刘则渊, 陈劲, 等. 科学知识图谱的发展历程. 科学学研究, 2008, 26(3): 449-460. [11] 任利强, 郭强, 王海鹏, 等. 基于CiteSpace的人工智能文献大数据可视化分析. 计算机系统应用, 2018, 27(6): 18-26. [12] 姬源, 谢冬, 周思明, 等. 电力领域语义搜索系统的构建方法. 计算机系统应用, 2016, 25(4): 91-96. [13] Vapnik V. The Nature of Statistical Learning Theory. New York: Springer, 1995. [14] Cristianini N, Taylor JS. An Introduction to Support Vector Machines and other Kerner-based Learning Methods. Cambridge: University Press, 2004. [15] 萧嵘, 王继成, 孙正兴, 等. 一种SVM增量学习算法. 南京大学学报(自然科学版), 2002, 38(2): 152-157. DOI:10.3321/j.issn:0469-5097.2002.02.004 [16] 张灿淋, 姚明海, 童小龙, 等. 一种新的基于KKT条件的错误驱动SVM增量学习算法. 计算机系统应用, 2014, 23(1): 144-148. DOI:10.3969/j.issn.1003-3254.2014.01.028 [17] Burges CJC. A tutorial on support vector machines for pattern recognition. Data Mining and Knowledge Discovery, 1998, 2(2): 121-167. DOI:10.1023/A:1009715923555 [18] 周伟达, 张莉, 焦李成. 支撑矢量机推广能力分析. 电子学报, 2001, 29(5): 590-594. DOI:10.3321/j.issn:0372-2112.2001.05.004 [19] Chang CC, Lin C J. LIBSVM: A library for support vector machines. ACM Transactions on Intelligent Systems and Technology, 2011, 2(3): 27.