计算机系统应用  2024, Vol. 33 Issue (11): 48-57   PDF    
S-UNet: 基于U-Net和LSTM的短临降水预报网络
许梦1, 杜景林2, 刘蕊1     
1. 南京信息工程大学 计算机学院、网络空间安全学院, 南京 210044;
2. 南京信息工程大学 人工智能学院 (未来技术学院), 南京 210044
摘要:随着深度学习技术的发展, 多数研究工作将短临降水预报视为雷达回波序列的预测任务. 由于降水复杂性的非线性时空变换, 现有的短临预报存在准确性低、外推时效短、难以应对复杂的非线性时空变换等缺点. 为解决以上问题, 本文基于U-Net和LSTM提出了S-UNet短临降水预报网络. 首先本文提出了S-UNet layer (SL)模块, 以帮助网络更好地提取雷达序列特征, 构建时空变化的整体趋势, 从而提高网络效率, 增加网络的外推时长. 其次, 为更好地应对雷达回波的变形、积累和消散的复杂性, 增强网络对复杂的空间关系的捕获能力和运动轨迹的模拟能力, 本文基于LSTM构建了雷达特征模块radar feature (RF). 最后, 将SL模块和RF模块与U-Net框架结合, 提出了S-UNet短临降水预报网络, 并在KNMI数据集上实现了先进的性能. 实验结果表明, 在KNMI的NL-50和NL-20数据集上, 本文所提的方法与主流方法相比, 海德克技能得分和关键成功指数分别提高了5.25% (6.57%)和2.17% (4.75%), 达到了0.30 (0.29)和0.72 (0.58); 准确率提高了2.10% (1.35%), 达到了0.80 (0.80); 假接受率降低了4.27% (1.80%), 达到了0.24 (0.38). 除此之外, 本文通过消融实验证明了所提出模块及结合方法的有效性.
关键词: 短临降水预报    U-Net    LSTM    深度学习    雷达回波    
S-UNet: Short-term Precipitation Forecasting Network Based on U-Net and LSTM
XU Meng1, DU Jing-Lin2, LIU Rui1     
1. School of Computer Science & School of Cyber Science and Engineering, Nanjing University of Information Science & Technology, Nanjing 210044, China;
2. School of Artificial Intelligence (School of Future Technology), Nanjing University of Information Science & Technology, Nanjing 210044, China
Abstract: The development of deep learning technology invites most research to consider short-term precipitation nowcasting as a prediction task of radar echo sequences. Due to the nonlinear spatiotemporal transformations involved in the complexity of precipitation, existing short-term nowcasting methods have problems such as low accuracy, short extrapolation time, and difficulty in dealing with complex nonlinear spatiotemporal transformations. To address these issues, this study proposes an S-UNet short-term precipitation forecasting network based on U-Net and LSTM. Firstly, the study introduces the S-UNet layer (SL) module to help the network better extract radar sequence features and construct the overall trend of spatiotemporal changes, thereby improving the network efficiency and increasing the extrapolation duration. Secondly, to better address the complexity of radar echo deformation, accumulation, and dissipation, and to enhance the network’s ability to capture complex spatial relationships and simulate movement trajectories, this study constructs the radar feature (RF) module based on LSTM. Finally, by combining the SL module and the RF module with the U-Net framework, the S-UNet short-term precipitation nowcasting network is proposed, achieving remarkable performance on the KNMI dataset. Experimental results show that, compared with the mainstream methods, on the KNMI’s NL-50 and NL-20 datasets, the proposed method improves the Heidke skill score (HSS) and critical success index (CSI) by 5.25% (6.57%) and 2.17% (4.75%) respectively, reaching 0.30(0.29) and 0.72(0.58); the accuracy increases by 2.10% (1.35%), reaching 0.80 (0.80); and the false acceptance rate decreases by 4.27% (1.80%), dropping to 0.24 (0.38). Additionally, the effectiveness of the proposed modules and their combination methods are verified through ablation experiments.
Key words: short-term precipitation forecasting     U-Net     LSTM     deep learning     radar echo    

短临降水预报模型使用实时数据预测提前期(0–3 h)的降水[1], 不仅要求预报的准确性和及时性, 还要求预测的精细程度, 是一项重要又困难的任务[2,3]. 可靠的短临降水预报对于航空、农业、海洋管理等领域具有重要意义, 特别在紧急的情况下影响人们的生命和财产安全[4,5]. 为了评估可能会出现的灾害天气, 有效的短临预报模型需要进行连续的短临预报, 其特点是更新频率高, 计算时间短[6]. 现有短临预报方法中满足短临预报模型要求且应用广泛的主要是: (1)模型驱动方法; (2)数据驱动方法.

模型驱动方法主要包括数值天气预报NWP (numerical weather prediction)模型, 因其多年以来的有效性和稳定性, NWP模型在研究降水预报方面极具吸引力[7]. 但数值天气降水预报涉及云物理的显示和隐式表征, 如水汽对流、相变和粒子聚结. 这些过程发生在毫米到份子尺度, 远远超过了当前数值模式的分辨率. 此外, 热力学平衡和连续的假设在描述这些微观过程时失去了其有效性[8], 需要对这一过程采用补充方程. 这些未解析过程是从计算网格上的解析动力学推导出来的[9], 与降水有关的参数化方案是云微物理和亚网格对流, 由于降水过程的复杂性, 这些参数化方案及其相关参数通常具有较高的结构和参数不确定性[10]. 因此, 与温度、压力等直接解析变量相比, 模式降水产品通常被认为是不可靠的[11,12]. 而且, NWP无法捕捉中尺度系统范围内发生的较小尺度对流模式[13]. 因此, NWP很难达到对流尺度的短临预报精度水平[14].

另一方面, 随着计算机硬件(GPU、TPU等)性能的大幅度提升, 基于数据驱动的深度学习技术蓬勃发展, 在各领域的应用效果都优于传统方法[15,16]. 大多数研究工作将短临降水预报视为雷达序列的预测任务. 由于降水云团存在膨胀、消散、变形等更为复杂的运动, 以及天气雷达资料本身的误差随着预测时间增加而传播和累积, 雷达序列预测任务比一般图像序列预测任务更具有挑战性[17]. 在与雷达序列预测固有的复杂性和随机性作斗争的过程中, 产生了很多有趣的方法[1824]. Shi等人[18]在前人研究的基础上使用卷积结构取代FC-LSTM中的全连接结构设计了卷积LSTM(ConvLSTM)模型, 通过在LSTM内部变换中用卷积运算代替Hadamard乘子来捕获时空特征. 但由于卷积核的引入, 空间位置没有改变, 这对具有旋转和变形的天气模式来说是一个缺点. 为此, Shi等人[19]开发了TrajGRU模型, 通过为每个位置生成具有参数化学习子网络的邻域集来克服空间一致性问题. Wang等人[20]提出一种具有之字形结构的模型PredRNN, 通过引入时空记忆单元有效地对形状变形和运动轨迹进行建模. 为克服时空记忆单元的梯度消失问题, Wang等人又提出了PredRNN++[21], 通过引入梯度高速公路单元模块来捕获长期记忆依赖性. 最近一些研究将降水临近预报聚焦在CNN中, 如SimVP[22]等. 研究证明, CNN在短临降水预报领域更加具有应用性. 例如, RainNet[23]将U-Net的分类头替换为预测头, 用于德国雷达全境的预测任务; Song等人[24]在U-Net中加入SE (squeeze and excitation)模块, 结合U-Net, ResNet, 和注意力机制模块对未来两小时降雨进行预测, 该模型现已被整合到北京市海淀区的气象服务中; Trebing等人[25]将深度可卷积分离和注意力机制加入U-Net结构中, 降低模型参数的同时提高了模型性能, 进一步提升了U-Net在短临预报领域的发展.

在深度学习模型的优化下, 短临降水预报的准确度也得到了极大的改善. 但由于RNN[1821]模型在图像处理方面的缺陷和自身局限性以及CNN[2225]对于时间序列数据的建模能力的局限性, 使得现有模型难以处理雷达回波的变形、积累和消散的复杂性. 且虽然模型众多, 随着训练方法、参数设置等方面技术的成熟, 模型自身固有的缺点导致其性能趋于饱和. 马志峰等人[26]指出可以通过组合解决模型自身架构存在瓶颈的问题, 并提出与基于注意力机制的Transformer[27]架构相结合, 将其应用于短临降水预报领域. 但是Transformer模型复杂度大、训练和推理速度慢的问题对短临降水预报及其推广应用来说是一个致命问题, 尤其在和旧的框架结合的情况下. 除此之外, 尽管模型可以捕获初始降水状态, 但随着预测时间的增加, 这些模型的技能会迅速下降.

鉴于以上问题, 本文提出了一种基于U-Net和LSTM的短临降水预报网络. 整体网络架构基于简单的U-Net架构, 利用其上、下采样过程增强网络的全局感知能力. 在网络的编码器和解码器部分, 受PatchMixer[28]启发, 使用深度可分离卷积作为基本单元, 构建SL模块, 旨在提取雷达序列特征的同时建立雷达序列整体时空变化趋势, 提高模型对长序列建模能力, 提升模型外推的时效性. 其次, 本文构建了雷达特征提取模块(RF), 该模块将雷达序列的像素点作为时间步, 利用LSTM对时间步的优势, 构建雷达回波序列中降水云团的运动趋势. 总体而言, 本文介绍了一种新颖的降水临近预报网络, 结合基本单元的特征设计了SL和RF模块, 以建立雷达序列的整体时空变化趋势, 解决现有模型难以处理雷达回波的变形、积累和消散的复杂性的问题, 并在保证网络正确率的情况下提高模型的外推时长. 这为短临预报领域的发展提供了新的思路.

1 理论基础 1.1 基于雷达回波的降水预测定义

通常情况下, 基于雷达回波序列$\left\{ {{X_0}, {X_1}, {X_2}, \cdots, {X_N}} \right\}$的短临降水预测被视为时空序列预测任务, 其中${X_t} \in {R^{C \times H \times W}}$, $t \in [0, N]$, ${X_t}$表示特定时间点$t$的雷达图像, $C$表示通道, $H$$W$分别表示雷达回波图的高度和宽度. 假设$X = \left\{ {{X_0}, {X_1}, {X_2}, \cdots, {X_m}} \right\}$为已经观测到的雷达回波序列, $Y = \left\{ {{X_{m + 1}}, {X_{m + 2}}, \cdots, {X_N}} \right\}$表示未来的雷达回波序列. 短临降水预报问题本质上是在已知$ {X} $条件下预测未来最可能的回波序列$\hat Y = \{ {\hat X_{m + 1}}, {\hat X_{m + 2}}, \cdots, {\hat X_N}\} $.

为解决此问题, 通常会训练一个参数$\theta $的神经网络. 具体来讲就是使用随机梯度下降算法寻求一系列的参数${\theta ^*}$, 使得模型在给定输入序列$X$的情况下, 产生最大化真实的输出序列$Y$的可能性:

$ {\theta ^*} = \arg {{\mathrm{max}} _\theta }P(Y|X;\theta ) $
2 模型设计

一般U-Net被应用于分类或分割任务, 每个像素点预测一个类别. 而本文基于U-Net框架结合SL模块及RF模块构建S-UNet网络, 将其应用于时间序列的预测, 预测每个像素的具体数值. 具体而言, 如图1(a)所示, 本文使用基于深度可分离卷积的SL模块代替U-Net中的卷积操作, 在编码器部分捕获雷达图像中的全局信息, 包括降水云团的大小、位置和形状, 构建雷达序列整体时空变化趋势, 并在解码器部分重建输出图像. 与传统的CNN和RNN相比, 基于深度可分离卷积的SL模块改善了RNN训练复杂度高、计算速度慢以及CNN无法有效建立雷达序列整体时空变化趋势等问题. 其次, 为使网络能够更好地理解和预测复杂的天气系统, 本文设计了RF模块. 如图1(a)所示, 本文仅在跳跃连接上使用RF模块, 使得该模块在利用LSTM的优势捕获降水云团运动趋势的同时, 改善了在训练复杂度和计算速度方面对网络的影响.

接下来, 我们将详细讨论S-UNet的整体架构, 包括其各个部分的设计原理和功能. 具体来说, 我们将重点介绍SL模块和RF模块的设计思路, 并阐述它们在提取雷达序列特征和捕获图像空间关系方面的作用.

2.1 S-UNet layer (SL)

图1(b)所示, 在本文中, 我们提出了一种名为SL的层结构, 专门用于从雷达序列中提取特征. 该结构利用深度可分离卷积技术, 优化了计算资源的使用. 通过深度可分离卷积的多层堆叠, 网络能够有效地捕捉雷达序列中的时空特征. 这种时空变化趋势的建模能力有助于网络更好地理解天气系统的演变规律, 从而在预测未来天气时能够更准确地外推. 以下是SL的具体设计和描述.

SL通过深度可卷积分离技术来提取雷达数据的特征. 这种卷积技术主要包括两个步骤: 深度卷积和逐点卷积.

深度可分离卷积: 首先, 采用深度可分离卷积对输入的特征图进行处理. 在这一步中, 每个输入通道独立地与自己的卷积核进行卷积操作, 从而对每个通道的局部特征进行提取. 这种方法使得模型可以在不增加过多参数的情况下, 有效地捕获每个通道内的特征. 这里的卷积操作定义为:

$ x_i^{H\times W\times C} = BN\left( {\sigma \left\{ {con{v_{c \to c}}\left( {\begin{array}{*{20}{c}} {x_{i - 1}^{H\times W\times C}, } \\ {stride = K, } \\ {padding = 1, } \\ {kerne{l_{si{\textit{z}}e}} = K} \end{array}} \right)} \right\}} \right) $

其中, $K$表示卷积核的大小和步长, 本文设为3.

逐点卷积: 深度可卷积之后, 使用逐点卷积来整合不同通道的信息, 从而捕获特征之间的空间关系. 这一步通过对所有通道进行$1 \times 1$的卷积来实现, 其目的是在不改变空间维度的前提下, 通过组合不同通道的特征来增强模型的表达能力. 逐点卷积的表达式为:

$ \left\{ {\begin{array}{*{20}{l}} {x_i^{H\times W\times C} = BN(\sigma \{ ConvDepthwise(x_{i - 1}^{H\times W\times C})\} ) + x_{i - 1}^{H\times W\times C}} \\ {x_{i + 1}^{H\times W\times{C{'}}} = BN\left( {\sigma \left\{ {con{v_{c \to {c{'}}}}\left( {\begin{array}{*{20}{c}} {x_i^{H\times W\times C}, } \\ {stride = 1, } \\ {padding = 1, } \\ {kerne{l_{si{\textit{z}}e}} = 1} \end{array}} \right)} \right\}} \right)} \end{array}, } \right. $

其中, $BN$表示批量归一化(Batch Norm), $H$, $W$, ${C{'}}$分别表示深度可分离卷积和逐点卷积中输出特征图的高度、宽度和通道数量, 不同于输入数据, 提供灵活性以适应不同的特征提取需求.

图 1 S-UNet网络架构图

每个卷积操作后, 我们应用GELU[29]激活函数和Batch Norm来提升网络的非线性处理能力和稳定性. GELU激活函数有助于模型捕捉更复杂的数据分布, 而批量归一化则有助于加速训练过程并提高模型的泛化能力.

通过上述设计, SL模块能够有效地在保持计算效率的同时, 从雷达序列中提取丰富的空间和通道特征, 这对于天气和气候预测等地球系统科学应用至关重要. 此外, 本文在此模块中通过跨越卷积的线性残差连接提取时空变化的整体趋势.

2.2 Radar feature (RF)

为了使网络能够更好地应对复杂的天气系统, 在本研究中, 我们引入了一种基于LSTM的特征提取模块, 称为RF模块. LSTM是一种适用于序列数据的循环神经网络, 能够有效地捕捉序列数据中的长期依赖关系. 具体而言, 我们将图像的每个像素视为一个独立的“时间步”, 通过LSTM处理这些像素, 从而映射出图像的二维空间结构到序列模型中. 这种方法允许RF模块利用LSTM对时间序列处理的优势捕获降水云团等天气现象的运动趋势, 从而更准确地预测未来短时间内的降水情况.

具体的实现步骤如下: 首先, 如图1(c)所示, RF模块将图像的每个像素按照其在图像中的位置重新排列, 形成一个新的序列$X_t^{L\times C}$, 其中$L = H \times W$, 而$t$表示这个序列中的位置索引, 然后, 通过以下LSTM单元进行处理:

$ \left\{ \begin{gathered} {f_t} = \sigma \left( {{W_f} \cdot [{h_{t - 1}}, {x_t}] + {b_f}} \right) \\ {i_t} = \sigma ({W_i} \cdot [{h_{t - 1}}, {x_t}] + {b_i}) \\ {{\tilde c}_t} = \tanh ({W_c} \cdot [{h_{t - 1}}, {x_t}] + {b_c}) \\ {c_t} = {f_t} \cdot {c_{t - 1}} + {i_t} \cdot {{\tilde c}_t} \\ {o_t} = \sigma ({W_o} \cdot [{h_{t - 1}}, {x_t}] + {b_o}) \\ {h_t} = {o_t} \cdot \tanh ({c_t}) \\ \end{gathered} \right. $

其中, ${f_t}$${i_t}$${\tilde c_t}$${o_t}$${h_t}$分别为遗忘门、输入门、新记忆单元、更新记忆单元、输出门、输出状态, $\sigma $是Sigmoid激活函数, 用于门控制, tanh是tanh激活函数, 用于调制记忆单元的内容, $W$$b$是权重和偏置参数.

其次, 该模块将LSTM处理后的序列重新整形回图像的空间结构. 为了使网络能够更好地捕获上下文信息, 在模块中使用残差连接, 利用Conv2D将编码器的输出特征与重新整形后的LSTM的输出特征进行融合. 这种方法使得RF模块可以保留LSTM层和原始层各自的信息, 从而丰富最终特征表示.

为了验证这一模块的有效性, 我们在KNMI数据集上进行了消融实验. 实验结果显示, 与传统的U-Net模型相比, 我们的RF模块显著提高了对复杂天气系统的预测准确性, 尤其是在捕捉那些细小但重要的空间特征时表现更加出色. 通过这种设计, RF模块为雷达图像分析带来了新的视角和显著的性能改进.

3 实验分析 3.1 数据集描述

本研究所使用的数据源自荷兰皇家气象研究所(Koninklijk Nederlands Meteorologisch Instituut, KNMI), 涵盖了2016–2019年间荷兰及其领地的降水记录. 这些降水数据是通过位于De Bilt(52.10 N, 5.18 E, 44 m MSL)和Den Helder(52.96 N, 4.79 E, 51 m MSL)的两个C波段多普勒天气雷达站每5 min采集一次得到的. 总共收集了约420000张降水图, 其中每张原始图像的分辨率为$756 \times 700$像素, 每个像素点代表过去5 min内该地区每平方公里的降水总量, 数据以整数形式存储.

为了适应本研究的需要, 所有图像都被裁剪至$288 \times 288$像素, 以便模型可以更集中地处理包含降水的区域. 鉴于降水和无降水像素之间存在显著不平衡, 如图2所示, 我们精选了两个子集: NL-20和NL-50. 这两个数据集分别包含至少20%和50%的降水像素, 从而可以更好地评估模型对不同降水强度的预测能力. 数据集详细信息和处理过程均在文献[24]中有详细描述, 并且数据可在GitHub上获得.

此外, 所有图像数据在被输入模型前均进行了归一化处理, 具体方法是将原始数据、NL-20和NL-50中的数值除以原始数据训练集的最高值. 如表1所示, 数据划分如下: 2016–2018年的数据用作训练集, 2019年的数据则用作测试集. 训练集的10%随机选取作为验证集, 以便监控训练进度并决定何时停止训练.

模型的输入是一系列12张图像, 代表过去60 min的降水情况. 模型的任务是预测从最后一张输入图开始的后3 h内降水图中每个像素的降水量. 我们在原始数据的数据集上进行模型训练, 而同时使用至少含有50%和20%降水像素的 NL-50 和 NL-20数据集来测试模型性能及泛化能力, 确保模型在不同降水条件下都能表现良好. 这种方法不仅强调了模型对实际降水场景的适应性, 也凸显了其在处理不同降水条件下的稳健性.

3.2 评价指标

本研究中使用的损失函数是输出图像和地面实况图像之间的均方误差(MSE). MSE计算如下:

$ \mathit{MSE} = \frac{{\displaystyle\sum\nolimits_{i = 1}^n {{{({y_i} - {{\hat y}_i})}^2}} }}{n} $

其中, $n$是样本的数量, ${y_i}$是地面真值, ${\hat y_i}$是预测值.

为了全面评估模型的性能, 我们还计算了包括精确度、召回率、准确率、F1分数、关键成功指数(CSI)、误报率(FAR)以及Heidke技能分数(HSS)在内的多个评估指标. 这些指标专门针对降水量大于0.5 mm/h的情况进行计算, 其中0.5 mm/h的阈值是根据文献[18]设定的. 为此, 我们将模型的预测输出和目标图像中的每个像素根据此阈值转换为布尔值(0或1), 从而生成布尔掩码. 这样, 我们可以基于以上条件得出真阳性(TP) (预测=1, 目标=1)、假阳性(FP) (预测=1, 目标=0)、真阴性(TN) (预测=0, 目标=0)和假阴性(FN) (预测=0, 目标=1).

图 2 NL-20与NL-50数据集可视化

表 1 数据集示例

基于这些布尔结果, 我们可以根据公式:

$ \mathit{CSI} = \frac{{TP}}{{TP + FN + FP}} $
$ \mathit{FAR} = \frac{{FP}}{{FP + TP}} $
$ \mathit{HSS} = \frac{{TP \times TN - FN \times FP}}{{(TP + FN)(FN + TN) + (TP + FP)(FP + TN)}} $

进一步计算CSIFARHSS等指标, 为模型在实际降水预测场景中的表现提供更多维度的评估. 这种方法不仅帮助我们细致地检验模型的预测能力, 也确保了评估的全面性和准确性.

3.3 实验参数设置

本文的实验均在PyTorch框架上实现, 并在NVIDIA GeForce RTX 3090 上运行. 训练模型时采用早停策略, 当模型验证损失在15个轮次没有改善时, 停止训练, 以防止模型过拟合. 每个模型训练轮次最多为200轮. 除此之外, 本文使用Adam优化器, 当验证损失在4个轮次期间内没改善时, 将学习率降低为原来学习率的1/10. 初始学习率设为0.001.

3.4 实验结果

为验证所提方法有效性, 本文在雷达数据集上进行了全面的测试. 如表2所示为模型在NL-50数据集上的测试结果. 其中, 向上的箭头表示指标越高模型性能越好, 向下的箭头表示指标越低模型性能越好, 使用粗体显示最佳的实验效果. 从表2中可以看出, 基于RNN的模型: ConvLSTM、PredRNN的测试结果最差, 但其较高的召回率(Recall)凸显了在序列预测中建立长期依赖关系的重要性. 在基于CNN的模型中, SimVP的表现相对较差, 但相较于基于RNN的模型, 其MSE、RMSE、Precision等指标具有明显的提升, 与SimVP的测试结果相比较, Swin-UNet、U-Net、S-UNet在多项测试性能上超越了SimVP, 显示了CNN模型特别是基于U-Net的模型在雷达回波预测任务中的优势.

表 2 各模型在数据集NL-50上的对比结果

在测试结果中, 本文所构建的S-UNet 模型在性能上超越了所有对比模型. 首先, 在MSE和RMSE指标上与Swin-UNet 并列, 表现出色, 具有高精度的图像重建能力, 但却比 Swin-UNet 有更高的计算效率. 其次, S-UNet 在 Precision、Accuracy 和 F1 指标上均优于其他模型, 包括 Swin-UNet 和 U-Net. 这表明 S-UNet 在图像分类任务中能够更准确地识别目标, 同时保持高的召回率. 除此之外, S-UNet 的 FAR 指标最低, 意味着它将负类别误分类为正类别的比例最低. 这说明 S-UNet 在负类别分类方面具有更高的准确性和可靠性. 最后, S-UNet 在 CSIHSS 指标上的表现也很突出, 这意味着 S-UNet 能够准确地预测事件发生, 并且相对于随机预测, 预测准确性的改进程度较高.

综合来看, S-UNet 在图像重建、图像分类、负类别误分类率和事件预测能力等方面都表现优异, 是一个性能全面的模型选择. 因此在应用场景中, S-UNet 是一个理想的选择.

在 NL-50数据集上, S-UNet 模型与其余对比模型的测试结果如图3所示. 为了验证模型性能, 本文选取了如图3中Ground truth所示的逐渐消散的雷达回波图作为预测目标, 选取时间节点为30 min、60 min、120 min和180 min的各模型预测结果进行可视化. 从可视化结果可见, 与PredRNN、S-UNet、U-Net相比, ConvLSTM、SimVP和Swin-UNet的预测结果整体较为模糊. 而随着预测时长的增加及雷达回波的消散, PredRNN、S-UNet、U-Net均能很好地预测出逐渐消散的雷达回波图, 并且相对于U-Net及其余模型, PredRNN与S-UNet的预测图具有良好的纹理性. 且随着预测时间的增加, S-UNet并没有表现出PredRNN所呈现的对于降雨像素点较少的区域预测结果模糊的现象, 这一点可以通过对比图3中两个模型对于Ground truth的右半部分的预测可以看出. 通过与其余模型预测结果可视化的对比可以观察到, 我们所提出的模型S-UNet可以准确地预测出降雨范围, 但相比于真实数据, 模型所预测的数据较为模糊. 对于这个问题, 首先虽然现在许多研究工作已取得了不错的发展, 但是模糊问题依然没有得到解决. 其次, 本文所使用的损失函数 MSE 总是倾向于未来状态的平均特性, 也加剧了这一问题.

除此之外, 我们还在 NL-20 的数据集上对S-UNet的性能进行了测试. 如表3 所示, 尽管NL-20的降雨像素密度远低于NL-50, S-UNet的模型性能仍然高于其他模型. 这显示了模型具有较好性能的同时拥有较高的泛化能力, 使得模型能够更好地适应于实际应用.

3.5 消融实验

除此之外, 为了验证所使用的SL在网络中的有效性和所提出的RF模块对于网络的实际提升效果, 本文进行了消融实验. 首先, 本文使用$3 \times 3$卷积代替SL模块, 并移除跳跃连接上的RF模块, 将此模型作为Baseline. 其次, 为验证RF模块以及SL模块对于雷达回波预测的优势, 如表4中所示, 本文在Baseline模型上分别加入RF模块(B-RF: Baseline with RF)及SL模块(B-SL: Baseline with SL). 对于所提出的3个模型: Baseline、B-RF、B-SL, 如表4表5所示, 本文在数据集NL-50和NL-20上分别进行了实验.

根据表4表5的实验结果, Baseline模型效果最差, B-RF和B-SL的实验结果凸显了所提出模块及结合方法的有效性. 首先, SL模块有效地提升了模型MSE、RMSE、Precision、Accuracy以及HSS指数, 证明了SL模块在处理雷达数据上的优势. 特别是MSE和RMSE的提升, 侧面说明了所提出的模块具有较好的长序列处理能力. 且相对于表4中的在NL-50的测试数据, 表5中的在NL-20的测试数据更加出色, 也展示了SL模块在提高模型泛化性方面的能力.

图 3 模型预测结果可视化

表 3 各模型在数据集NL-20上的对比结果

表 4 S-UNet在数据集NL-50上的消融实验结果

表 5 S-UNet在数据集NL-20上的消融实验结果

其次, 相对于SL模块, Baseline with RF 的测试数据更加展示了RF优秀的时间序列预测能力, 并且证明了在跳跃连接上增加RNN模块方法的可行性. 同时, 本文的模型(B-RF&SL: Baseline with RF&SL)性能的最优性也说明了将CNN与RNN相结合可以有效地应对雷达回波序列中的复杂的非线性变换.

4 结论与展望

本文针对现有的短临预报准确性低、外推时效短以及难以应对复杂的时空变换的缺点, 使用U-Net框架与所提出SL模块、RF模块相结合构建了S-UNet短临降水预报网络. 通过实验, 本文验证了所提出方法的高效性, 并且证明了使用跳跃连接将CNN模型与RNN模型相结合是一个效率与性能并存的方法. 此外, 本文通过对比实验证明了将CNN (特别是U-Net)与RNN模型相结合更有利于处理雷达回波的预测任务, 其效果并不低于CNN与Transformer组合的方法, 为接下来的研究工作提供了方向. 但由于RF模块包含的LSTM本身的局限性, 增加了模型的运行时间, 且模型结合方法比较粗糙, 使得跳跃连接不能很好地获取原始的图像信息. 接下来的工作是设计更为精细的方法, 提高模型长序列捕捉能力的同时保留原始图像的信息, 并使用更高效率的RNN模块以及更高效的结合方法以进一步增加模型效率. 此外, 构建更好地损失函数以代替MSE, 改善目前损失函数使得模型更容易得到近似解的情况也是一个有价值的研究方向.

参考文献
[1]
Pirone D, Cimorelli L, Del Giudice G, et al. Short-term rainfall forecasting using cumulative precipitation fields from station data: A probabilistic machine learning approach. Journal of Hydrology, 2023, 617: 128949. DOI:10.1016/J.JHYDROL.2022.128949
[2]
Ehsani MR, Zarei A, Gupta HV, et al. NowCasting-Nets: Representation learning to mitigate latency gap of satellite precipitation products using convolutional and recurrent neural networks. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 4706021.
[3]
Jing JR, Li Q, Peng X, et al. HPRNN: A hierarchical sequence prediction model for long-term weather radar echo extrapolation. Proceedings of the 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Barcelona: IEEE, 2020. 4142–4146.
[4]
Parmar A, Mistree K, Sompura M. Machine learning techniques for rainfall prediction: A review. Proceedings of the 2017 International Conference on Innovations in Information Embedded and Communication Systems. Coimbatore, 2017.
[5]
Imhoff RO, Brauer CC, van Heeringen KJ, et al. Large-sample evaluation of radar rainfall nowcasting for flood early warning. Water Resources Research, 2022, 58(3): e2021WR031591. DOI:10.1029/2021WR031591
[6]
De Luca DL, Capparelli G. Rainfall nowcasting model for early warning systems applied to a case over Central Italy. Natural Hazards, 2022, 112(1): 501-520. DOI:10.1007/S11069-021-05191-W
[7]
Schultz MG, Betancourt C, Gong B, et al. Can deep learning beat numerical weather prediction? Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 2021, 379(2194): 20200097. [doi: 10.1098/RSTA.2020.0097]
[8]
Draper D. Assessment and propagation of model uncertainty. Journal of the Royal Statistical Society Series B: Statistical Methodology, 1995, 57(1): 45-70. DOI:10.1111/j.2517-6161.1995.tb02015.x
[9]
Betts AK, Viterbo P, Wood E. Surface energy and water balance for the Arkansas—Red River Basin from the ECMWF reanalysis. Journal of Climate, 1998, 11(11): 2881-2897. DOI:10.1175/1520-0442(1998)011<2881:SEAWBF>2.0.CO;2
[10]
Tian D, Wood EF, Yuan X. CFSv2-based sub-seasonal precipitation and temperature forecast skill over the contiguous United States. Hydrology and Earth System Sciences, 2017, 21(3): 1477-1490. DOI:10.5194/hess-21-1477-2017
[11]
Chao ZY, Pu FL, Yin YK, et al. Research on real-time local rainfall prediction based on MEMS sensors. Journal of Sensors, 2018, 2018(1): 6184713. DOI:10.1155/2018/6184713
[12]
Simonin D, Pierce C, Roberts N, et al. Performance of Met Office hourly cycling NWP-based nowcasting for precipitation forecasts. Quarterly Journal of the Royal Meteorological Society, 2017, 143(708): 2862-2873. DOI:10.1002/qj.3136
[13]
Hong WC. Rainfall forecasting by technological machine learning models. Applied Mathematics and Computation, 2008, 200(1): 41-57. DOI:10.1016/j.amc.2007.10.046
[14]
Pan X, Lu YH, Zhao K, et al. Improving Nowcasting of convective development by incorporating polarimetric radar variables into a deep-learning model. Geophysical Research Letters, 2021, 48(21): e2021GL095302. DOI:10.1029/2021GL095302
[15]
Geng YLA, Li QY, Lin TY, et al. LightNet: A dual spatiotemporal encoder network model for lightning prediction. Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. Anchorage: ACM, 2019. 2439–2447.
[16]
Luo CY, Li XT, Ye YM, et al. Experimental study on generative adversarial network for precipitation nowcasting. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5114220.
[17]
Wu HX, Yao ZY, Wang JM, et al. MotionRNN: A flexible model for video prediction with spacetime-varying motions. Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021. 15430–15439.
[18]
Shi XJ, Chen ZR, Wang H, et al. Convolutional LSTM network: A machine learning approach for precipitation nowcasting. Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal: MIT Press, 2015. 802–810.
[19]
Shi XJ, Gao ZH, Lausen L, et al. Deep learning for precipitation nowcasting: A benchmark and a new model. Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach: Curran Associates Inc., 2017. 5622–5632.
[20]
Wang YB, Long MS, Wang JM, et al. PredRNN: Recurrent neural networks for predictive learning using spatiotemporal LSTMs. Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach: Curran Associates Inc., 2017. 879–888.
[21]
Wang YB, Gao ZF, Long MS, et al. PredRNN++: Towards a resolution of the deep-in-time dilemma in spatiotemporal predictive learning. Proceedings of the 35th International Conference on Machine Learning. Stockholm: PMLR, 2018. 5123–5132.
[22]
Gao ZY, Tan C, Wu LR, et al. SimVP: Simpler yet better video prediction. Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022. 3160–3170.
[23]
Ayzel G, Heistermann M, Sorokin A, et al. All convolutional neural networks for radar-based precipitation nowcasting. Procedia Computer Science, 2019, 150: 186-192. DOI:10.1016/j.procs.2019.02.036
[24]
Song K, Yang GW, Wang QX, et al. Deep learning prediction of incoming rainfalls: An operational service for the city of Beijing China. Proceedings of the 2019 International Conference on Data Mining Workshops (ICDMW). Beijing: IEEE, 2019. 180–185.
[25]
Trebing K, Staǹczyk T, Mehrkanoon S. SmaAt-UNet: Precipitation nowcasting using a small attention-UNet architecture. Pattern Recognition Letters, 2021, 145: 178-186. DOI:10.1016/J.PATREC.2021.01.036
[26]
马志峰, 张浩, 刘劼. 基于深度学习的短临降水预报综述. 计算机工程与科学, 2023, 45(10): 1731-1753. DOI:10.3969/j.issn.1007-130X.2023.10.003
[27]
Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach: Curran Associates Inc., 2017. 6000–6010.
[28]
Gong ZY, Tang YJ, Liang JW. PatchMixer: A patch-mixing architecture for long-term time series forecasting. arXiv:2310.00655, 2023.
[29]
Hendrycks D, Gimpel K. Gaussian error linear units (GELUs). arXiv:1606.08415, 2016.