2. 台州学院 智能信息处理研究所, 台州 318000
2. Institute of Intelligent Information Processing, Taizhou University, Taizhou 318000, China
在工业化和城市化的背景下, 空气污染已成为人们关注的焦点. 其中, PM2.5 (指空气动力学直径小于或等于2.5 mm的大气颗粒物)是一种特别危险的因素, 可以直接进入人体并对健康造成危害[1]. 许多研究表明, 高水平的PM2.5暴露与呼吸系统和心血管疾病密切相关[2,3]. 此外, PM2.5还对出生率和婴儿健康产生不良影响[4,5]. 然而, 控制雾霾需要更多实时的空气质量监测数据. 为了有效预防和控制空气污染, 并进行城市管理规划, 准确高效地预测近期PM2.5浓度是必要的.
由于PM2.5浓度预测的重要性, 近年来在该领域取得了显著进展[6]. 主要的发展可以分为3个不同的阶段: (1)早期的研究将数据挖掘方法与统计分析相结合[7,8]. Zhang等[9]研究了美国东部天气研究与预报(WRF)/社区多尺度空气质量(CMAQ)系统的性能. 然而, 由于这些方法研究区域、研究数据的限制, 很难去拟合非线性特征, 从而导致预测准确性降低[10]. (2)近年来, 深度学习的迅速发展, 为从输入数据中学习时空依赖关系提供了新的解决方案. 研究人员将整个城市视为图像并将其划分网格, 利用卷积神经网络(convolutional neural network, CNN)来提取序列内的空间相关性[11,12]. 此外, 郭宇辰等[13]利用将循环神经网络 (recurrent neural network, RNN)与CNN组合来捕捉序列内的时间依赖关系, 取得了不错的效果. 然而, 基于CNN的方法对空间上邻居的高效聚合使其对远距离依赖关系不敏感, 并且仅适用于欧几里德空间结构[14]. Lin等[15]基于门控递归单元(gated recurrent unit, GRU)及其变体, 设计了MLEGRU (multiple linear regression based GRU)对多站点数据进行预测. 但基于循环神经网络或其变体忽视了数据在空间上的依赖, 容易导致预测精度受影响. (3)图卷积网络(graph convolutional network, GCN)[16]是CNN在图结构上的推广, 适用于处理非欧几里德空间数据. 由于空气质量监测站的拓扑结构, GCN已在PM2.5浓度预测领域取得了成功且广泛的应用[17,18]. 有研究者将GCN用于提取 PM2.5 浓度预测中的空间依赖关系[19]. 此外, 还尝试了将GCN与Bi-LSTM结合以捕捉时空依赖关系[20]. Wang等[21]将多图注意力图卷积与GRU结合, 将不同图之间相关站点的时空特征聚合, 有效提高了预测精度.
尽管GCN在PM2.5预测中的有效性已得到验证, 但仍然存在4个重要问题尚未得到充分讨论: (1)邻接矩阵决定了图卷积网络中的聚合方法, 但通常是固定的, 并通过基于空间距离或图连接性的启发式方法生成. 这些方法无法捕捉真实的时空依赖. (2)现有方法忽视了空气质量预测中的层次依赖性. 空气质量受全球、区域和局部尺度上多种因素的影响. 这些因素以层次方式相互作用, 意味着一个层次上的预测或输入依赖于更高层次的预测. 例如, 周边地区的环境状况可能会受到意外事件(如工厂污染泄漏)的影响, 但这种干扰未必会对整个城市的空气质量产生影响. (3)当前的图卷积方法主要遵循图信号处理的观点, 倾向于平滑节点的输入信号. 在这种情况下, 只使用一个邻接矩阵的可叠加图卷积层难以有效获得多层次的数据高级表示. (4)不同层次表示对最终空气质量的贡献不应是静态的, 而应在时间上动态变化. 例如, 特定的天气异常(如雾霾天气)可能会增加低层次特征的影响. 这些问题可以用来改进当前的空气质量预测研究.
为了解决问题, 本文提出了一种新的深度学习框架, 自适应分层图卷积神经网络(adaptive hierarchical graph convolutional neural network, AHGCNN)用于PM2.5预测. 具体而言, 为了解决主流图卷积网络在捕获多层次空间依赖方面的低效率和不准确性, 引入了自适应分层图卷积(hierarchical mapping graph convo-lution, HMGC). 通过自学习邻接矩阵, 该网络可以在每个层次上动态提取空间依赖. 此外, 对层次拓扑结构相关性进行建模, 提供了一种基于注意力的层次聚合机制, 以较小的计算成本实现了图卷积结构. 然后将GRU中的线性单元替换成HMGC, 构成自适应分层图卷积门控循环单元(adaptive hierarchical graph convolution gated recurrent unit, AHGC-GRU), 多层堆叠搭建网络主体结构, 输出预测结果.
1 理论基础 1.1 PM2.5浓度预测问题定义通常情况下, PM2.5浓度预测被视为一个时空序列预测问题. 给定
$ \widehat y = f(x, A) $ | (1) |
其中,
本节描述AHGCNN模型的基本组件. 如图1所示, 包含邻接矩阵生成、自适应动态图的构造、多层信息融合、AHGC-GRU多层堆叠形成的编码器和解码器. 下面详细介绍AHGCNN模型各个模块的具体实现.
2.1 构建邻接矩阵
邻接矩阵决定了在图卷积中节点及其邻居是如何被聚合的. 现有的研究依赖先验知识来事先构建图结构, 本文的方法是完全基于数据驱动的, 因此能够捕捉数据之间的时序依赖性.
对于给定的图信号集合
$ {\textit{SVD}}({X^l}) \to ({X^s}, {X^t}) $ | (2) |
其中,
矩阵
$ {A_{xy}} = {\textit{Similarity}}(X_x^s, X_y^s) = \exp \left( - \frac{{||X_x^s - X_y^s|{|^2}}}{{2{\beta ^2}}}\right) $ | (3) |
其中,
为了高效准确地捕捉多层空间依赖关系, 本文引入了一种新的图卷积网络: 分层映射图卷积网络(HMGC). HMGC的特点在于每个层级都包含独特的邻接矩阵, 从而更灵活地建模底层图结构. 这种结构可以进行递归定义:
$ {Z^{(m + 1)}} = {Z^{(m)}}{ \star _G}g_\theta ^{(m)} = {A^{(m)}}{Z^{(m)}}{\theta ^{(m)}} $ | (4) |
节点之间的层级关系由
$ {A^{(m + 1)}} = {\varphi ^{(m)}}({A^{(m)}}) $ | (5) |
对由式(3)生成的初始图结构进行标准化处理, 将其用于邻接矩阵的初始化, 并采用随机梯度下降进行优化. HMGC初始层的定义如下:
$ {A^{(0)}} = {D^{ - 1}}{A_{xy}} $ | (6) |
$ {Z^{(1)}} = {A^{(0)}}{Z^{(0)}}{\theta ^{(0)}} $ | (7) |
其中,
在现实中, 图结构并不总是可用的, 节点之间的关联性经常随着时间变化. 此外, PM2.5浓度与天气条件密切相关. 在类似的天气条件下, 空气质量往往比不同的天气条件下更加均匀. 因此, 本文遵循模型训练过程来构建不同层之间的动态邻接矩阵. 天气数据的时间变化性使得动态邻接矩阵具有潜在的时间相关性.
首先, 节点的数量导致更新
$ {\textit{SVD}}({A^{(0)}}) \to (E_1^{(0)}, E_2^{(0)}) $ | (8) |
函数
$ \left\{\begin{gathered} {{E}}_1^{(m)} = E_1^{(m - 1)}{W^{(m - 1)}} + {b^{(m - 1)}} \\ {{E}}_2^{(m)} = E_2^{(m - 1)}{W^{(m - 1)}} + {b^{(m - 1)}} \\ \end{gathered}\right. $ | (9) |
在这种情况下,
基于式(4)和式(9), 对于分层映射图卷积(HMGC), 其数学表达式可以重新定义为:
$ {Z^{(m + 1)}} = (E_1^{(m)}E{_2^{(m)^{\mathrm{T}}}}){Z^{(m)}}{\theta ^{(m)}} $ | (10) |
为了从所有图卷积层中汇集信息, 而不仅从一个固定的层中提取信息, 本文通过注意机制实现多层聚合策略, 以选择性地选取对当前预测任务准确性产生更大影响的信息.
通过HMGC获得的图信号的多层输出表示为
$ \left\{\begin{gathered} {Q_i} = W_i^QF(\widehat Z) \\ {K_i} = W_i^KF(\widehat Z) \\ {V_i} = W_i^VF(\widehat Z) \\ hea{d_i} = {{a}}ttention(({K_i}, {V_i}), {Q_i}) \\ h = Concat(hea{d_1}, \cdots, hea{d_i}){W_0} \\ \end{gathered}\right. $ | (11) |
其中,
门控循环单元(GRU)是循环神经网络(RNN)的一种变体, 相对简单而又强大, 它解决了RNN中梯度消失和梯度爆炸的问题. 根据之前研究[22], 本文将GRU中的线性变换替换为HMGC, 以获得更好的性能. 因此, 提出了自适应分层图卷积门控循环单元(AHGC-GRU).
$ \left\{\begin{gathered} {r^{(t)}} = \sigma ({\Theta _r}{ \star _G}[{h^{(t)}}, {H^{(t - 1)}}] + {b_r}) \\ {u^{(t)}} = \sigma ({\Theta _u}{ \star _G}[{h^{(t)}}, {H^{(t - 1)}}] + {b_u}) \\ {c^{(t)}} = \tanh ({\Theta _c}{ \star _G}[{h^{(t)}}, ({r^{(t)}} \odot {H^{(t - 1)}})] + {b_c}) \\ {H^{(t)}} = {u^{(t)}} \odot {H^{(t - 1)}} + (1 - {u^{(t)}}) \odot {c^{(t)}} \\ \end{gathered} \right.$ | (12) |
在多步预测模型中, 编码器和解码器均由AHGC-GRU构成, AHGCNN模型的伪代码如算法1.
算法1. AHGCNN模型框架
输入: 图
输出: 表征向量
1.
2. for
3.
4.
5.
6.
7. for
8.
9.
10.
为了评估模型捕捉时空依赖性的能力, 本文选择了位于中国北京市及周边地区的39个气象监测站作为研究对象. 通过考虑从这些监测站收集到的空气质量、气象数据的时空特性, 可以获得精确的预测结果. 这些预测结果可以显著地惠及易受影响的人群, 并有助于制定适当的空气污染控制政策.
依据之前的工作方式[23], 本文使用了两种类型的数据: 空气污染物浓度数据和气象数据. 空气污染物浓度数据来源于北京市环境保护监测中心网站 (http://www.bjmemc.com.cn/), 其数据类型包括PM2.5、PM10、SO2、NO2、O3、CO和AQI. 气象数据来自欧洲中期气象预报中心(ECMWF) (https://cds.climate.copernicus.eu/), 其中包含地面气压、气温、露点温度、风向和风速等参数.
从39个站点收集了为期3年的数据(2018年1月1日–2020年12月31日), 数据每小时采集一次. 鉴于数据的不完整性(例如缺失值), 本文采用线性插值技术填补短期的缺失值. 最终经过处理的数据根据7:1:2的比例被划分为训练集、验证集和测试集.
3.2 评价指标本文采用两种评估指标来评估所提出模型在预测结果方面的性能, 包括均方根误差(RMSE)和平均绝对误差(MAE). 其定义如下:
$ MAE(y, \widehat y) = \frac{1}{n}\sum\limits_{i = 1}^n {|{y_i} - {{\widehat y}_i}|} $ | (13) |
$ {\textit{RMSE}}(y, \widehat y) = \sqrt {\frac{1}{n}\sum\limits_{i = 1}^n {{{({y_i} - {{\widehat y}_i})}^2}} } $ | (14) |
其中, 变量
为了测试AHGCNN模型的预测效果, 本文与常见的深度学习网络模型进行了比较, 包括LSTM[24]、GRU[25]、RNN[26]、Informer[27]、FFTransformer[28]; 同时为了说明图结构对于捕捉空气数据时空依赖的重要性, 与扩散递归神经网络(diffusion convolutional recu-rrent neural network, DCRNN)[29]和Graph WaveNet[30]等模型做实验对比.
3.4 实验参数本次实验模型使用PyTorch 1.13.1实现, 并在单块GPU (NVIDIA RTX 3090, 24 GB显存)上进行训练, 操作系统为Ubuntu 22.04. 当预测模型各项参数设置如表1所示时, 模型的预测性能达到最佳.
模型使用 MSE 作为损失函数, 损失值的训练迭代情况如图2所示. 从图2中可以观察到, 在前10轮迭代中, 训练集和测试集的损失值迅速下降. 随着迭代次数的增加, 训练集的损失值持续缓慢下降. 在经过15轮迭代后, 模型基本完成拟合, 损失值趋于平稳, 训练精度达到0.1左右. 随后的20轮迭代中, 测试集的损失值基本稳定, 保持在0.4左右.
3.5 预测结果对比分析
如表2所示, RNN、LSTM和GRU模型表现最差. 这并不令人意外, 因为它们只能访问节点表示, 无法获取邻居信息. 说明在PM2.5预测中捕获邻居信息的必要性.
AHGCNN模型在性能上优于现有的预测模型. 在短期预测方面, AHGCNN的改进效果更为显著. 与DCRNN相比, 在预测的1 h、3 h、6 h、12 h和24 h时间点, AHGCNN的MAE分别降低了5.56%、6.12%、5.91%、13.5%和3.18%, RMSE 分别降低了9.08%、5.38%、3.96%、8.49%和0.47%. 与Graph WaveNet相比, AHGCNN在预测的1 h、3 h、6 h、12 h和24 h时间点, 分别将MAE降低了1.9%、0.91%、1.59%、0.87%和0.52%, RMSE分别降低了1.13%、4.31%、4.09%、3.87% 和 3.35%. 这表明动态邻接矩阵能够有效地捕获随时间变化的时空依赖关系, 即使底层的图结构是未知的. 与长序列预测模型Informer相比, 在预测的1 h、3 h、6 h、12 h和24 h时间点, AHGCNN的MAE分别降低了10.95%、12.11%、9.76%、7.97%和3.73%, RMSE 分别降低了17.65%、9.46%、6.26%、3.25%和0.47%. 与FFTransformer相比, AHGCNN在预测的1 h、3 h、6 h、12 h和24 h时间点, 分别将MAE降低了11.51%、9.77%、13.24%、8.07%和3.16%, RMSE分别降低了4.9%、15.70%、10.43%、5.86% 和 2.39%. 这个结果证实了 AHGCNN在利用时空依赖知识方面的优势, 并展示了它可靠的预测能力.
图3展示了在多个监测站点中, AHGCNN、RNN、LSTM、GRU、DCRNN、Graph WaveNet、Informer和FFTransformer等多个模型之间的预测值与实际值之间的差异. 测试期间, RNN、LSTM 和GRU模型在预测值与实际值之间存在显著差异, 尤其是在空气质量数据发生明显波动的时期. 尽管DCRNN、Graph WaveNet、Informer和FFTransformer模型在稳定期间的性能有所提高, 但在突然变化时仍存在变化和与实际值的大偏差. 相反, AHGCNN模型表现出卓越的预测能力, 在各个时期表现出色. 这些发现说明其他模型无法充分利用监测站之间的非线性空间特性, 导致在数据剧烈变化时模型适应性不足. 然而, 通过多层信息的聚合, AHGCNN模型可以更有效地提取信息, 捕捉站点之间的异质空间和时间特征, 从而在空气质量数据突然变化时避免了其他模型中出现的显著预测误差.
我们对模型学习到的自适应邻接矩阵进行了分析和比较, 如图4所示. 与由数据生成的原始邻接矩阵相比, 学习到的邻接矩阵展现出更加丰富的站点之间的相关性, 为之前的邻接矩阵提供了补充. 这表明单个矩阵无法完全捕捉到随着时间变化而节点之间联系的变化.
4 结语本文提出了一种基于自适应分层图卷积神经网络(AHGCNN)的PM2.5浓度预测方法. 该模型能够在不需要预先确定图结构的情况下, 捕捉数据之间的隐式空间依赖关系. 具体而言, 为了捕捉多层次的空间依赖关系, 引入HMGC的图卷积结构. HMGC中的邻接矩阵是自学习的, 并且每一层都是独特的, 有助于处理随时间变化的潜在时空依赖关系. 此外, 本文采用分层映射机制, 将上层图结构与下层图结构连接起来. 这使得模型能够融合不同数据层次的信息, 同时减少模型参数的数量. 随后, 单元网络将这些组件综合起来形成最终的预测. 在真实世界数据集上进行的实验验证了AHGCNN在PM2.5浓度预测任务中取得了良好的性能. 在未来的工作中, 将探索将更多外部知识纳入, 以构建动态邻接矩阵, 并引入更有效的注意机制来处理多层次信息.
[1] |
孟聪申, 刘静怡, 刘悦, 等. 2018年中国五城市大气细颗粒物暴露所致人群超额死亡风险评估. 卫生研究, 2021, 50(4): 593-599. DOI:10.19813/j.cnki.weishengyanjiu.2021.04.010 |
[2] |
Leclercq B, Kluza J, Antherieu S, et al. Air pollution-derived PM2.5 impairs mitochondrial function in healthy and chronic obstructive pulmonary diseased human bronchial epithelial cells. Environmental Pollution, 2018, 243: 1434-1449. DOI:10.1016/j.envpol.2018.09.062 |
[3] |
Wright N, Newell K, Chan KH, et al. Long-term ambient air pollution exposure and cardio-respiratory disease in China: Findings from a prospective cohort study. Environmental Health, 2023, 22(1): 30. DOI:10.1186/s12940-023-00978-9 |
[4] |
Panunzi S, Marchetti P, Stafoggia M, et al. Residential exposure to air pollution and adverse respiratory and allergic outcomes in children and adolescents living in a chipboard industrial area of Northern Italy. Science of the Total Environment, 2023, 864: 161070. DOI:10.1016/j.scitotenv.2022.161070 |
[5] |
Yang WH, Johnson MB, Liao HS, et al. Combined effect of preconceptional and prenatal exposure to air pollution and temperature on childhood pneumonia: A case-control study. Environmental Research, 2023, 216: 114806. DOI:10.1016/j.envres.2022.114806 |
[6] |
赵小明, 顾珂铭, 张石清. 面向深度学习的空气质量预测研究进展. 计算机系统应用, 2022, 31(11): 49-59. DOI:10.15888/j.cnki.csa.008847 |
[7] |
Hasnain A, Sheng YH, Hashmi MZ, et al. Time series analysis and forecasting of air pollutants based on prophet forecasting model in Jiangsu province, China. Frontiers in Environmental Science, 2022, 10: 945628. DOI:10.3389/fenvs.2022.945628 |
[8] |
杨锦伟, 孙宝磊. 基于灰色马尔科夫模型的平顶山市空气污染物浓度预测. 数学的实践与认识, 2014, 44(2): 64-70. DOI:10.3969/j.issn.1000-0984.2014.02.008 |
[9] |
Zhang HL, Chen G, Hu JL, et al. Evaluation of a seven-year air quality simulation using the weather research and forecasting (WRF)/community multiscale air quality (CMAQ) models in the eastern United States. Science of the Total Environment, 2014, 473–474: 275–285.
|
[10] |
Gao X, Li WD. A graph-based LSTM model for PM2.5 forecasting. Atmospheric Pollution Research, 2021, 12(9): 101150. DOI:10.1016/j.apr.2021.101150 |
[11] |
Hou JW, Wang YJ, Hou B, et al. Spatial simulation and prediction of air temperature based on CNN-LSTM. Applied Artificial Intelligence, 2023, 37(1): 2166235. DOI:10.1080/08839514.2023.2166235 |
[12] |
张波, 陆云杰, 秦东明, 等. 一种卷积自编码深度学习的空气污染多站点联合预测模型. 电子学报, 2022, 50(6): 1410-1427. |
[13] |
郭宇辰, 加鹤萍, 余涛, 等. 基于CNN-LSTM组合模型的碳价预测方法. 科技管理研究, 2023, 43(11): 200-206. DOI:10.3969/j.issn.1000-7695.2023.11.025 |
[14] |
Ye JC, Sun LL, Du BW, et al. Coupled layer-wise graph convolution for transportation demand prediction. Proceedings of the 35th AAAI Conference on Artificial Intelligence. AAAI, 2021. 4617–4625.
|
[15] |
Lin CY, Chang YS, Abimannan S. Ensemble multifeatured deep learning models for air quality forecasting. Atmospheric Pollution Research, 2021, 12(5): 101045. DOI:10.1016/j.apr.2021.03.008 |
[16] |
Kipf TN, Welling M. Semi-supervised classification with graph convolutional networks. Proceedings of the 5th International Conference on Learning Representations. Toulon: ICLR, 2017.
|
[17] |
马俊文, 严京海, 孙瑞雯, 等. 基于LSTM-GCN的PM2.5浓度预测模型. 中国环境监测, 2022, 38(5): 153-160. DOI:10.19316/j.issn.1002-6002.2022.05.17 |
[18] |
祁柏林, 郭昆鹏, 杨彬, 等. 基于GCN-LSTM的空气质量预测. 计算机系统应用, 2021, 30(3): 208-213. DOI:10.15888/j.cnki.csa.007815 |
[19] |
Qi YL, Li Q, Karimian H, et al. A hybrid model for spatiotemporal forecasting of PM2.5 based on graph convolutional neural network and long short-term memory. Science of the Total Environment, 2019, 664: 1-10. DOI:10.1016/j.scitotenv.2019.01.333 |
[20] |
Kunar P, Nithish R, Sudha. Enhancing PM2.5 predictions using combination of graph convolutional network and Bi-LSTM. Proceedings of the 9th International Conference on Advanced Computing and Communication Systems. Coimbatore: IEEE, 2023. 1218–1221.
|
[21] |
Wang CY, Zhu YM, Zang TZ, et al. Modeling inter-station relationships with attentive temporal graph convolutional network for air quality prediction. Proceedings of the 14th ACM International Conference on Web Search and Data Mining. ACM, 2021. 616–634.
|
[22] |
Ouyang XC, Yang Y, Zhang YL, et al. Spatial-temporal dynamic graph convolution neural network for air quality prediction. Proceedings of the 2021 International Joint Conference on Neural Networks. Shenzhen: IEEE, 2021. 1–8.
|
[23] |
Abirami S, Chitra P. Regional air quality forecasting using spatiotemporal deep learning. Journal of Cleaner Production, 2021, 283: 125341. DOI:10.1016/j.jclepro.2020.125341 |
[24] |
Hochreiter S, Schmidhuber J. Long short-term memory. Neural Computation, 1997, 9(8): 1735-1780. DOI:10.1162/neco.1997.9.8.1735 |
[25] |
Chung J, Gulcehre C, Cho K, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling. arXiv:1412.3555, 2014.
|
[26] |
Zaremba W, Sutskever I, Vinyals O. Recurrent neural network regularization. arXiv:1409.2329, 2015.
|
[27] |
Zhou HY, Zhang SH, Peng JQ, et al. Informer: Beyond efficient Transformer for long sequence time-series forecasting. Proceedings of the 35th AAAI Conference on Artificial Intelligence. AAAI, 2021. 11106–11115.
|
[28] |
Bentsen LØ, Warakagoda ND, Stenbro R, et al. Spatio-temporal wind speed forecasting using graph networks and novel Transformer architectures. Applied Energy, 2023, 333: 120565. DOI:10.1016/j.apenergy.2022.120565 |
[29] |
Li YG, Yu R, Shahabi C, et al. Diffusion convolutional recurrent neural network: Data-driven traffic forecasting. Proceedings of the 6th International Conference on Learning Representations. Vancouver: OpenReview.net, 2018.
|
[30] |
Wu ZH, Pan SR, Long GD, et al. Graph WaveNet for deep spatial-temporal graph modeling. Proceedings of the 28th International Joint Conference on Artificial Intelligence. Macao: IJCAI.org, 2019. 1907–1913.
|