2. 中国科学院大学, 北京 100049;
3. 辽宁省阜新生态环境监测中心, 阜新 123000;
4. 辽宁省环境监测协会, 沈阳 110161
2. University of Chinese Academy of Sciences, Beijing 100049, China;
3. Liaoning Fuxin Ecological Environment Monitoring Center, Fuxin 123000, China;
4. Liaoning Environmental Monitoring Association, Shenyang 110161, China
大气污染是环境污染治理问题中难以从根源解决的重点难题. 从“十二五”时期以来, 政府对大气污染治理越发重视. 近些年, 在政府的带领下, 我国的空气质量改善已取得显著性成果. 但是目前我国的大气治理形势仍然严峻, 空气质量总体上仍然属于“气象影响型”, 大气治理仍然任重道远, 生态环境部也将治理重污染天气作为“十四五”时期的重点工作. 若在重污染天气时期对风险源进行识别分类并及时发出预警, 可以帮助工作人员做好环境治理, 防止风险源进一步扩散[1-3]. 在生态学中, 风险源是指对生态环境有不利影响的一种或多种的化学的、物理的或生物的风险来源. 在大气环境学中的风险源[4]是指在一定触发因素下可能引发大气污染事件的污染源. 本文中的风险源是指重污染天气时产生的即将超出环境负荷的具有潜在性风险的污染气团.
与风险源识别的研究类似的有对污染气团的识别研究, 传统方法主要是通过对遥感数据、红外数据进行数学建模和统计分析, 如杨智雄等[5]采用时空混合调制红外干涉成像被动探测方案和高光谱成像技术, 对污染云团的种类和分布进行了识别; 张一星[6]基于遥感数据, 利用改进的贝叶斯云监测方法对高污染区域进行了识别. 但传统方法存在较高的人力物力成本, 数据采集的样本数量和种类也容易受到污染物危险系数的影响, 针对此问题, 结合物联网技术的网格化监测技术[7]可以做到更完善的数据监测, 有成本较低、布施灵活、运行维护方便等诸多优势[8], 如廖程浩等[9]综合利用了卫星遥感数据覆盖面广和站点检测数据实时性高的特点, 建立了临界映射分析法, 用于精准识别污染物浓度超标的区域. 随着算力和人工智能发展, 计算机可以很方便地对海量数据计算, 发现数据中隐含特征. 如刘欣等[10]等提出基于深度学习的自动化识别方法, 快速确定了高分辨率遥感影像数据中化学污染云团的尺度和边界.
本文所使用的数据是通过网格化监测得到的污染数据, 其监测的污染气团受监测点位空间分布的影响, 且污染气团的位置和浓度会随着时间变化, 即风险源数据呈现出明显的时空特征, 可以通过深度学习模型来提取风险源数据的时空特征, 学习风险源形成的变化趋势. 而目前时空特征相关应用大多为空气质量预测的相关工作, 在时间特征相关的研究中, Saravanan等[11]通过实验对比了卷积神经网络(convolutional neural networks, CNN)、人工神经网络、深度神经网络和循环神经网络(recurrent neural network, RNN)后, 证明了在空气污染检测精度方面, RNN有最优的性能; Karimian等[12]发现在不同时间间隔中预测PM2.5浓度中, 对比了多元加性回归树、深度前馈神经网络和长短期记忆网络(long short-term memory, LSTM)进行了实验对比, 发现LSTM可以更好地学习时间序列中的时间特征, 从而提高了预测的准确性; 与之相似地, 石晓文等[13]对比了应用支持向量机、反向传播神经网络、多元线性回归于LSTM后, 证明了LSTM在空气质量指数低于200时具有更高的预测精度和模型泛化能力; 类似地, Kök等[14]提出了一种分析物联网智能城市数据的深度学习模型, 基于长短时记忆网络来预测智能城市未来的空气质量值. 而在时空特征融合相关的研究中, 邹国建[15]提出了基于CNN和LSTM的卷积自编码深度学习模型用于预测多个监测点位的空气污染情况, 并通过实验证明相比较单独使用CNN或LSTM做单一特征提取, 该模型效果要更优; 也有相似的研究, 如杨张婧等[16]提出了一种LSTM-CNN混合模型, 并于神经网络、回归树以及简单的LSTM系列模型进行对比, 证明了混合模型在空气质量预测时有更好的性能. 同时, 大量实验证明, 门控循环单元结构(gated recurrent unit, GRU)能达到与LSTM拥有相似的效果, 但是GRU拥有更加简洁的结构和更快的收敛速度, 要更易于计算[17, 18].
综上所述, 传统方法对于风险源相关的识别的成本更高, 且效果易受到数据完整性的限制. 目前主流的方法是结合深度学习来做相关研究, 而这些研究很少考虑风险源的时空特征, 且在已有的时空特征相关研究中, 大多数学者都是基于深度学习模型对污染物的趋势进行预测, 对污染风险源的识别研究较少.
通过相关模型的对比, 本文选择将残差网络(residual network, ResNet)、图卷积神经网络(graph convolutional network, GCN)与门控循环单元结构(gated recurrent unit, GRU)相结合, 提出了一种可以识别风险源的ResGCN-GRU模型, 该模型可以通过学习风险源形成的变化趋势达到识别风险源的目的. 然后基于沈阳市网格化监测点位的PM2.5监测数据, 与单独使用GCN、LSTM、GRU以及使用混合模型GCN-GRU进行对比, 验证了本文提出方法的要更加有效.
2 基于ResGCN-GRU的风险源识别模型风险源数据具有明显的时空特征. 在空间特征处理方面, 由于监测点位之间的空间分布属于非欧式数据, 不适宜使用传统的卷积神经网络提取空间特征, 因而本文选用GCN提取风险源的空间特征, 同时考虑到多层GCN带来的过平滑问题, 本文结合了残差网络对GCN进行改进. 在时间特征处理方面, 本文选用了GRU来提取数据的时间特征, 再通过全连接层融合时空特征, 最后通过激活函数输出分类结果.
接下来简要介绍残差网络、ResGCN模型和GRU模型, 然后再介绍ResGCN-GRU模型.
2.1 残差网络在深度学习中, 随着网络层数的加深, 容易出现出现梯度消失的问题, 导致目标函数陷入局本最优解. 而残差网络通过添加在网络中加入跳跃连接形成残差块, 可以在提高训练网络深度的同时缓解梯度消失问题[19, 20]这种方式允许数据在各层之间轻松流动, 而且不会妨碍模型的学习能力. 残差映射关系如式(1):
$ H(x) = F(x) + x $ | (1) |
其中, x为输入, F(x)为残差函数, H(x)是残差块的输出.
2.2 ResGCN模型传统的卷积神经网络只能处理欧氏空间数据, 不能很好地处理拓扑图数据. 而图卷积神经网络的本质目的就是用来提取拓扑图的空间特征, 是处理图数据的有力工具[21, 22]. 因此, 在本文中为了可以更好地反映监测点位的空间分布特征, 采用图卷积神经网络来对各个监测点位的污染数据进行相关分析.
设G={V, E, A}表示点位的图结构, 其中,
$ {H^{(l + 1)}} = \sigma ({\tilde D^{ - \frac{1}{2}}}\tilde A{\tilde D^{ - \frac{1}{2}}}{H^{(l)}}{W^{(l)}}) $ | (2) |
其中,
由于使用多层GCN, 会出现过平滑的问题, 节点的区分性变差, 这会使学习任务变得困难, 因此本文在GCN层加入了残差网络来对GCN进行改进, 解决模型过平滑带来的梯度消失问题. 本文将改进后的网络称为ResGCN (ResNet and GCN), 其网络结构如图1所示. ResGCN的数学模型表达式为:
$ H(x) = GCN(x) + x $ | (3) |
其中, x为输入, GCN(x)为图卷积神经网络函数, H(x)是ResGCN的输出.
2.3 GRU模型风险源是区域性且动态变化的, 各点位污染数据是有时序特征的. 循环神经网络就是用来处理序列数据的神经网络, 但它只适合处理短期序列的信息, 并且存在梯度爆炸或消失的问题. LSTM是RNN的变体, 主要解决了长序训练过程中梯度消失或爆炸的问题, 在长序中有更好的表现. 而门控循环神经网络GRU是LSTM的变体, 其结构相比LSTM更加简单, 运行效率也更高[23, 24]. GRU的输入输出结构图如图2所示. 输入是t时刻的输入xt和t–1时刻包含之前节点相关信息的隐藏层状态ht–1输出是t时刻隐藏节点的输出yt和传递给下一个节点的隐状态ht.
如图3所示, GRU将LSTM中输入门和遗忘门合并为更新门zt, 用于控制隐藏状态的更新, 重置门rt用于判断是否保留之前的隐藏状态, 更新门zt与重置门rt计算如式(4)–式(5)所示:
$ {{\textit{z}}_t} = \sigma ({W_{\textit{z}}} [{h_{t - 1}}, {x_t}] + {b_{\textit{z}}}) $ | (4) |
$ {r_t} = \sigma ({W_r} [{h_{t - 1}}, {x_t}] + {b_r}) $ | (5) |
候选隐藏状态
$ {\tilde h_t} = \tanh ({W_h} \cdot [{r_t} \odot {h_{t - 1}}, {x_t}] + {b_h}) $ | (6) |
最后计算隐藏状态, 由更新门控制如何将包含了当前时间步信息的候选隐藏状态更新成当前时间步的隐藏状态, 其表达式为:
$ {h_t} = (1 - {{\textit{z}}_t}) \odot {h_{t - 1}} + {{\textit{z}}_t} \odot {\tilde h_t} $ | (7) |
其中,
2.4 ResGCN-GRU模型
对于风险源识别问题可以描述为: 通过沈阳市各监测点位时间步长为h的历史时刻污染数据
$ Y = F([{X_{t - h + 1}}, \cdots , {X_t}], A) $ | (8) |
其中, F是ResGCN-GRU模型; Y是表示时间序列
ResGCN-GRU模型主要是由残差网络、图卷积神经网络和门控循环神经网络组成. 如图4所示, 该模型的输入是
本文的实验数据分为: 从2021年10月到2022年5月共计243天沈阳市网格化监测中72个小微型监测点位监测的PM2.5浓度值为数据样本集, 其数据采样频次以小时为单位, 数据量约为40万条; 通过监测点位的地理位置和历史污染数据的传播趋势构建的邻接矩阵, 其中监测点位的分布如图5所示.
根据《环境空气质量标准》中24小时PM2.5浓度平均值标准值, 若监测点位某一时刻的监测值大于75, 则判定为污染点位. 在本文中, 根据上述得到的邻接矩阵, 如果在某一时刻相关联的污染点位得个数大于等于3, 就将这一时刻标记为风险源时刻, 否则标记为非风险源时刻.
监测点位有时会出现断电的情况或者其他情况, 所以数据中会出现一些缺失值以及异常值. 本文将异常值视为缺失值, 由于监测点位的断电情况可能会出现某一点位连续一段时间内都没有值, 所以本文使用K最近邻法通过附近相关联点位的值加权平均来估计该点位缺失值.
3.2 实验环境与参数设置 3.3 评价指标为了对模型的分类性能做出评价, 本文使用精确率(precision, P)、召回率(recall, R)和综合评价指标F1 (F1-score)作为评价指标, 计算如式(9)–式(11).
精确率就是预测为正类的样本中, 实际为正类的占比; 式(9)中, TP是将正类预测为正类的数量, FP是将负类预测为正类的数量.
$ P = \frac{{TP}}{{TP + FP}} $ | (9) |
召回率就是实际为正类的样本中, 正确预测为正类的占比; 式(10)中, FN是将正类预测为负类的数量.
$ R = \frac{{TP}}{{TP + FN}} $ | (10) |
综合评价指标是精确率和召回率的调和平均. 式(11)中, P是精确率、R是召回率.
$ F1 = \frac{{2RP}}{{P + R}} $ | (11) |
本文的实验过程如下所述.
首先从监测点位获取数据, 对数据进行预处理, 包括对异常数据进行处理、构建邻接矩阵、对每一时刻是否构成风险源进行标记, 然后将时刻数据处理为步长为6的时间序列, 并根据时间序列最后一个时刻的状态标记时间序列是否为风险源序列. 最后将处理好的数据集以8:1:1的比例划分为训练集、验证集和测试集.
之后将训练数据输入到改进后的GCN层提取空间特征, 再将提取空间特征后的数据输入到GRU层提取时间特征, 最后用全连接层融合时空特征后通过Softmax函数进行分类. 模型的训练过程如算法1所示.
算法1. ResGCN-GRU的训练过程
输入: 监测点位的训练集数据x_train, 时刻对应的风险源标签y_train, 训练迭代次数epoch, 每批训练样本数量
输出: 训练完成的ResGCN-GRU模型
1. 初始化模型参数
2. for i=1 to epoch do //分批训练
3. for k=1 to batchNum do
4. 从x_train中获取batchSize个样本x
5. 从y_train中获取batchSize个样本y
6. output=ResGCN_GRU(x)
7. loss=nll_loss(output, y_train)
8. backward()
9. end for
10. end for
算法1中的nll_loss为负对数似然函数损失, 其定义如下:
$ L = \frac{1}{N}\sum\limits_i { - [{y_i} \cdot \log ({p_i}) + (1 - {y_i}) \cdot \log (1 - {p_i})]} $ | (12) |
其中, N为样本个数即算法1中的batchSize、y为标签值即算法1中的y_train、p为预测值即算法1中的output.
训练过程中, 同时使用验证集估计泛化误差, 更新超参数. 训练过程中训练集与验证集误差的变化情况如图6所示, 准确度的变化情况如图7所示.
3.5 实验结果分析为验证ResGCN-GRU模型效果, 本文在数据集和模型参数相同的条件下, 使用了GCN、LSTM、GRU、GCN-GRU作为对比模型进行了消融实验分析.
不同模型的分类性能结果如表3所示. 数据表明本文提出的模型相比其他模型总体上有较大的提升. 考虑到数据的空间特征, 本文选用了GCN做基于空间特征的分类, 但由于GCN没有考虑到时序特征, 相比较其他几种模型分类效果最差; 又考虑到数据的时序特征, 本文使用了LSTM和GRU进行实验, 从上述结果中可以看出LSTM的综合评价不如GRU效果好, 因而本文最终选用GRU做时间特征的提取; 在综合考虑数据的时空特征后, 本文采用GCN-GRU进行了实验, 发现该模型的综合评价较原始的GRU提升较少, 而且训练时较早出现了梯度消失情况. 所以本文采用融合了残差网络的ResGCN-GRU模型, 解决原始GCN提取空间特征时出现的过平滑问题, 实验证明该模型相比原GCN-GRU模型效果更好.
4 结论与展望
针对风险源识别问题, 本文提出基于时空特征的方法对风险源进行分类. 首先是通过加入了残差网络的GCN模型从监测点位的地理分布中提取空间关系, 然后采用GRU来学习的时间特征, 最后使用Softmax激活函数得到分类结果. 通过实验表明, 本文提出的方法能有效地对风险源进行分类, 并与单独使用GCN、LSTM、GRU以及使用混合模型GCN-GRU进行对比, 验证了模型的有效性. 未来会考虑增加污染数据的特征, 综合多种因素对分类的影响.
[1] |
石耀鹏, 褚旸晰, 段菁春, 等. 区域大气重污染过程识别指标及算法研究. 中国环境监测, 2021, 37(4): 32-39. DOI:10.19316/j.issn.1002-6002.2021.04.06 |
[2] |
张宸赫, 赵天良, 陆忠艳, 等. 沈阳地区一次颗粒物重污染天气过程的气象成因分析. 环境保护科学, 2021, 47(1): 97-103. DOI:10.16803/j.cnki.issn.1004-6216.2021.01.016 |
[3] |
Saravanan D, Kumar KS. Improving air pollution detection accuracy and quality monitoring based on bidirectional RNN and the Internet of Things. Materials Today: Proceedings, 2021.
|
[4] |
雷学勤, 陈哲铭, 王仪春, 等. 大气污染风险源控制及应急管理措施分析. 科技与创新, 2015(15): 61, 64. DOI:10.15913/j.cnki.kjycx.2015.15.061 |
[5] |
杨智雄, 雷正刚, 余春超, 等. 基于相关系数的长波红外光谱成像气体探测方法研究. 第21届全国分子光谱学学术会议暨2020年光谱年会论文集. 成都: 中国质谱学会, 2020, 74-75. DOI:10.26914/c.cnkihy.2020.024632 |
[6] |
张一星. 高污染区域云检测算法改进及其产品轨迹扩散精细模拟研究[硕士学位论文]. 上海: 华东师范大学, 2020.
|
[7] |
祁柏林, 郭昆鹏, 杨彬, 等. 基于GCN-LSTM的空气质量预测. 计算机系统应用, 2021, 30(3): 208-213. DOI:10.15888/j.cnki.csa.007815 |
[8] |
季寅星. 大气污染防治网格化系统应用研究. 中国新技术新产品, 2020(21): 119-121. DOI:10.13612/j.cnki.cntp.2020.21.042 |
[9] |
廖程浩, 曾武涛, 张永波, 等. 星地结合的细颗粒物超标防控区精确识别方法. 科学技术与工程, 2019, 19(30): 375-378. DOI:10.3969/j.issn.1671-1815.2019.30.056 |
[10] |
刘欣, 郑毅, 仲波, 等. 基于遥感影像数据的化学污染云团识别技术研究. 国家安全地球物理丛书(十六)——大数据与地球物理. 西安: 西安地图出版社, 2020, 149-154. DOI:10.26914/c.cnkihy.2020.043135 |
[11] |
Saravanan D, Kumar KS. Improving air pollution detection accuracy and status monitoring based on supervised learning systems and Internet of Things. International Journal of Nonlinear Analysis and Applications, 2021, 12(2): 1497-1511. |
[12] |
Karimian H, Li Q, Wu CL, et al. Evaluation of different machine learning approaches to forecasting PM2.5 mass concentrations
. Aerosol and Air Quality Research, 2019, 19(6): 1400-1410. DOI:10.4209/aaqr.2018.12.0450 |
[13] |
石晓文, 蒋洪迅. 面向高精度与强鲁棒的空气质量预测LSTM模型研究. 统计与决策, 2019, 35(16): 49-53. DOI:10.13546/j.cnki.tjyjc.2019.16.009 |
[14] |
Kök İ, Şimşek MU, Özdemir S. A deep learning model for air quality prediction in smart cities. Proceedings of 2017 IEEE International Conference on Big Data. Boston: IEEE, 2017. 1983–1990.
|
[15] |
邹国建. 基于时空特征学习的区域空气污染物扩散趋势预测研究[硕士学位论文]. 上海: 上海师范大学, 2020.
|
[16] |
杨张婧, 阎威武, 王国良, 等. 基于大数据的城市空气质量时空预测模型. 控制工程, 2020, 27(11): 1859-1866. DOI:10.14107/j.cnki.kzgc.20180619 |
[17] |
Cho K, van Merriënboer B, Gulcehre C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Doha: ACL, 2014. 1724–1734.
|
[18] |
Wang W. R-NET: machine reading comprehension with self-matching networks. Natural Language Computer Group, Microsoft Reserach. Technical Report, Beijing. 2017.
|
[19] |
唐玺博, 张立民, 钟兆根. 基于ADASYN与改进残差网络的入侵流量检测识别. 系统工程与电子技术, 2022, 44(12): 3850–3862.
|
[20] |
Zhang JL, Chen F, Guo YN, et al. Multi-graph convolutional network for short-term passenger flow forecasting in urban rail transit. IET Intelligent Transport Systems, 2020, 14(10): 1210-1217. DOI:10.1049/iet-its.2019.0873 |
[21] |
徐冰冰, 岑科廷, 黄俊杰, 等. 图卷积神经网络综述. 计算机学报, 2020, 43(5): 755-780. DOI:10.11897/SP.J.1016.2020.00755 |
[22] |
Wang GT, Zhang ZR, Bian ZP, et al. A short-term voltage stability online prediction method based on graph convolutional networks and long short-term memory networks. International Journal of Electrical Power & Energy Systems, 2021, 127: 106647. |
[23] |
马栋林, 马司周, 王伟杰. 基于图卷积网络和门控循环单元的多站点气温预测模型. 计算机应用, 2022, 42(1): 287-293. |
[24] |
Liu XW, Qin MC, He Y, et al. A new multi-data-driven spatiotemporal PM2.5 forecasting model based on an ensemble graph reinforcement learning convolutional network
. Atmospheric Pollution Research, 2021, 12(10): 101197. DOI:10.1016/j.apr.2021.101197 |