建筑物是人们在工作和学习中不可或缺的活动场所, 从遥感影像中提取建筑物相关目标对于GIS数据库更新、土地利用、城市规划和自然灾害探测等工程具有重要意义[1]. 因此研究人员针对建筑物的提取提出了许多基于传统或者深度学习的分割方法.
建筑物目标丰富的直线、直角和阴影等特性可被传统方法作为建模和分割的依据. 然而传统方法的构建需强烈依赖于对特定目标的先验知识, 过程费时费力, 因此近年来, 更多基于深度学习语义分割的建筑物提取方法被研究人员所提出. Zhong等人[2]利用预训练参数对网络进行训练, 通过对比分析FCN网络中解码器的特征融合层数对模型精度的影响, 提出了改善后的网络模型, 但由于其较为简单的网络结构调整, 得到的遥感影像仍存在信息缺失问题. 尚群锋等人[3]针对遥感影像中小物体特征在高纬度难以被提取的问题, 提出了改进的DeconvNet网络, 该网络通过记录编码过程的池化索引并将其应用到解码恢复过程的方式改进网络解码部分, 从而减少了图像恢复的盲目性, 并最终提高了对小物体的分割效果, 但该方法需占用较大的机器内存, 对于大物体容易出现边缘不平滑的情况. 赵斐等人[4]提出了一种端到端的语义分割模型. 该模型秉承Unet算法中编解码结构的思想, 通过引入注意力机制调整金字塔中各个通道中特征的权重, 提取具有信息侧重的多尺度特征, 解决物体边缘分割模糊的问题, 同时小目标漏检情况也得到了改善. 苏健民等人[5]专注于像素间的联系问题, 引入神经网络中常被人们忽略的后处理操作并提出了一种基于Unet的改进方法, 其首先采用集成学习的策略, 为建筑、道路和水体等每一类地物目标训练一个二分类模型, 随后将各预测的子图进行组合以生成最终的分割结果, 该模型性能虽获得一定的提高, 但是“分类训练+后处理”的分割策略在操作上仍稍显繁琐, 且部分空间信息仍存在丢失问题.
尽管上述方法相比传统方法能更便捷地实现对遥感影像中建筑物等目标的分割, 但他们未能综合考虑建筑物目标轮廓的多样性、网络编码过程空间和细节信息的丢失以及深层语义信息间上下文联系存在不足等问题, 导致了网络模型在面对建筑物边缘以及对应的分割完整性上仍有提升的空间. 为此本文基于经典Unet算法[6], 通过设计下采样旁路网络和联合变形卷积的残差金字塔网络, 提出了多尺度融合的变形残差金字塔网络方法, 有效提高了模型的分割精度.
1 模型架构与改进 1.1 多尺度融合的变形残差金字塔网络模型本文所提多尺度融合的变形残差金字塔网络模型(Multi-scale fusion of Deformation Residual Pyramid Network, MDRP-Net)如图1所示. 其主要包含3个部分: 下采样旁路主干网络、联合变形卷积的残差金字塔网络结构和级联上采样解码器. 下采样旁路主干网络由VGG16[7]主干网络和下采样旁路网络组成, 主干网络主要用于挖掘建筑物深层次特征; 下采样旁路网络结构则把输入影像进行不同程度的下采样, 用于对VGG16网络获取的多层次特征图进行融合补充. 对于VGG16主干网络次末端的卷积层输出, 其既作为提取网络最深层特征的卷积层输入, 也作为联合变形卷积的残差金字塔网络结构的初始输入, 以并行融合方式增加深层语义的丰富程度. 网络的级联上采样解码器, 接收综合下采样旁路主干网络和联合变形卷积的残差金字塔结构两部分的多层次、多尺度特征信息图, 然后把获取的多特征融合图向前上采样逐步恢复图像尺寸与细节, 最后将其送入网络的末端判别器实现对遥感建筑物影像的预测和分割
1.2 网络的改进 1.2.1 下采样旁路主干网络
经典Unet模型被广泛地应用医学图像分析的领域, 但由于简单的编码结构, 使其无法适应背景信息更为复杂、干扰信息更多的对象. 而VGG网络相比18个主流特征提取网络具有更优的迁移性[8], 因此本文把网络的编码结构使用VGG16网络将其替换并作为主干网络, 同时, 对修改后主干网络进一步添加一个下采样旁路结构作为网络补充.
在该旁路网络中, 本文使用最大池化操作将网络最初输入影像分别下采样至原大小的1/4、1/16、1/64和1/256倍, 此时能得到4种不同尺寸的图像, 并将其记录为scale1–scale4. 在主干网络中, 每个包含卷积池化的blockl(l=1, 2, 3, 4)块也能得到4种不同分辨率的输出图像, 这些输出图像刚好与scalel图像大小相同. 我们将blockl块的输出图像和scalel的图像进行相加融合, 分别作为下一层网络的输入进而使下一层卷积层获得两个尺度的特征信息.
1.2.2 联合变形卷积的残差金字塔结构根据变形卷积方法的思想[9], 其可通过训练获取卷积核偏移坐标从而指导卷积核采样点的选取. 这意味着利用该偏移坐标网络可以更针对性地对建筑物轮廓特征进行模拟与提取. 然而偏移坐标存在着偏移大小的限制, 这使得变形卷积核的感受野与传统卷积核相差不大, 导致变形卷积在面对多尺度目标时仍存在不足, 因此本文引入金字塔池化结构以扩大变形卷积对不同尺度特征的捕获能力. 同时, 在Deeplab[10]系列中, 作者强调空洞卷积的使用和提出ASPP模块来聚合不同模块和不同尺度间的上下文信息. 这些方法虽然有效, 但是他们仅简单地对尾部特征进行拼接的方式会导致上下文间仍存在语义鸿沟的问题. 综合上述问题, 本文设计一种联合变形卷积的残差金字塔模块(Deformation Residual Spatial Pyramid, DRSP), 如图2所示.
与DeepLabV3+[11]方法使用金字塔结构的方式相比, 本文提出的DRSP模块是基于主干网络block4特征图作为输入的, 其首先经过变形卷积获取变形特征, 再进一步对变形特征提取多尺度上下文信息. 同时, 为了减少上下文语义信息的差距,不同尺度特征之间使用残差模块来逐层聚合它们. 在形式上可描述为式(1).
${X_{{\rm{raspp}}}} = \left\{ {\begin{array}{*{20}{l}} {H([{h_1},{h_2},{h_3},\cdots,{h_n}])} \\ {{h_n} = f(f(f({X_1}) \oplus {X_2}) \oplus {X_3}) \oplus \cdots \oplus {X_n})} \\ {{d_1} < {d_2} < {d_3} < \cdots < {d_n}} \end{array}} \right.$ | (1) |
其中, Xraspp为DRSP模块的最终聚合特征, dn为卷积核膨胀率, H([.])为通道串联操作, Xn代表从变形特征获取的不同尺度特征, f代表残差模块[12], ⊕表示元素求和. 在DRSP模块逐层聚合上下文信息的过程中, 卷积核膨胀率逐渐增大, 同时其膨胀率大小根据Wang等人[13]的公式推荐以及实验的尝试, 设定为1、2、5、9、13.
2 实验与分析 2.1 实验数据集
本实验数据集选取遥感建筑物影像Massachusetts Buildings[14]. 数据集中包含了137张训练影像数据、4张验证影像数据、10张测试影像数据, 每张图像尺寸为1500×1500像素. 为了适应硬件条件和便于训练, 本文对原图按256×256像素大小进行裁剪. 裁剪后按随机旋转、引入高斯噪声、随机缩放策略对训练数据进行扩增, 最终获得训练集大小为11 664张, 测试集大小为360张, 验证集大小为144张.
2.2 实验设计和参数设定实验设计部分, 选用两个使用了金字塔池化结构的网络方法PSPNet[15]和DeepLabV3+与本文方法进行对比, 同时, 另设计3组实验对比各改动方法对网络性能的影响. 实验1: 在经典Unet算法基础上, 单独添加下采样旁路主干网络; 实验2: 在经典Unet算法上, 单独添加DRSP模块; 实验3: 在经典Unet算法上, 同时添加下采样旁路主干网络和DRSP模块.
训练样本输入大小为256×256, batchsize大小为4, 训练100代. 网络训练过程, 不同网络模型使用超参数相同: 初始学习率为0.01, 学习率衰减率为1e−2, 动量值为0.9. 训练过程中使用监测器对测试集损失值进行监测, 当损失值连续50代没有下降, 则认为模型训练完毕, 训练提前停止.
对于建筑物遥感影像语义分割, 是属于二分类的任务, 网络模型在训练过程中将使用交叉熵作为损失函数, 其表达式如下:
$Loss = - \frac{1}{n}\sum\limits_{i = 1}^n {({y_i} \cdot \ln \hat {{y_i}} + (1 - {y_i}) \cdot \ln (1 - \hat {{y_i}}))} $ | (2) |
其中, n表示类别数量, yi表示真值, ŷi表示当前像素预测的值.
2.3 实验评价指标实验结果评价指标采用均交并比MIoU[2]和可用于衡量二分类模型精确度的指标F1-score[16], 计算公式如下:
$MIoU = \frac{1}{{k + 1}}\sum\limits_{i = 0}^k {\frac{{{P_{ii}}}}{{\displaystyle\sum\limits_{j = 0}^k {{P_{ij}} + \displaystyle\sum\limits_{j = 0}^k {{P_{ji}} - {P_{ii}}} } }}} $ | (3) |
${F1} {\text{-}} score = 2 \times \frac{{Precision \times Recall}}{{Precision + Recall}}$ | (4) |
$Precision = \sum\limits_{i = 0}^k {\frac{{{P_{ii}}}}{{{P_{ii}} + \displaystyle\sum\limits_{j = 0}^k {{P_{ij}}} }}} $ | (5) |
$Recall = \sum\limits_{i = 0}^k {\frac{{{P_{ii}}}}{{{P_{ii}} + \displaystyle\sum\limits_{j = 0}^k {{P_{ji}}} }}} $ | (6) |
式中, Pii表示预测正确的像素, Pij表示预测为建筑物, 实际为非建筑物的像素, Pji表示预测为非建筑物, 实际为建筑物的像素,Precision表示精确率, Recall表示召回率.
2.4 实验结果汇总与分析图3和表1分别是各实验模型损失值对比曲线和模型测试结果的汇集.
PSPNet与DeepLabV3+是语义分割网络中具有代表性的方法, 两者曾在PASCAL VOC-2012数据集获得过优异的成绩, 尽管在面对遥感建筑物数据集时其损失函数曲线相比Unet更加平滑, 然而两者在最终的评价指标以及可视化结果上的表现均不如经典的Unet网络.
实验1通过将VGG16主干网络与下采样旁路网络两者特征按层次融合的方式, 使得网络在挖掘更深层特征的同时具备与浅层特征信息的联系. 相比改进前的网络, 改进后网络损失函数值波动幅度明显减小, 整体损失值降低了约0.02, 且训练迭代约75次时损失值再度降低并最终进入稳态. 经测试, 改进后网络最终在F1-score和MIoU指标分别获得了1.1%和1.4%的提升.
实验2将DRSP结构与主干网络两者的输出特征进行融合, 尽管该网络损失值函数曲线没有实验1平滑, 但相比改进前网络其损失函数波动浮动和损失值均有一定程度地改善, 经测试, 实验2网络在F1-score和MIoU指标获得了0.6%和0.8%的提升.
实验3通过把实验1与实验2改进方法共同作用于原网络, 图3中对应的曲线显示表明改进后的网络缓解了单独引入DRSP模块时存在的损失函数曲线的波动, 且训练至大约20代时就达到此前实验最优损失值附近, 同时在迭代约60代时进入稳态. 最终测试结果也比两组单独的改进实验效果更好, 最终其在F1-score和MIoU指标上相比Unet算法分别提升了1.6%和2.1%.
为了更直观感受模型的改进对分割性能所带来的影响, 本文把个各实验模型语义分割的部分预测图进行了可视化, 如图4所示. 图中展示了本文所提方法的优势, 其主要体现在建筑物与背景模糊分界的区域以及对中大型建筑物分割的完整性这两个方面. 受光线和阴影影响, 建筑物边缘与背景区域区分度低, 如图4(a)–图4(d)中建筑物边缘存在绿植、阴影或者颜色相似的道路等干扰, 导致建筑物与背景出现分界模糊的情况, 但相较原Unet网络, 本文所提方法能更好地区分此类建筑物的边界区域, 以改善对建筑物边缘分割的准确性. 另一方面, 由于原始模型仅使用单一规则的卷积核和较简单主干网络, 致使其对不同尺寸特别是较大型建筑物特征信息捕获能力存在一定限制, 如图4(e)–图4(g)中建筑物中间部分出现的漏空现象. 可以看出, 相对未改进的方法, 本文所提方法拥有更强的多尺度目标的适应能力和特征信息保留的能力, 从而在面对中大型建筑物时具有更完整的分割.
3 结语
本文研究了相关语义分割网络在遥感建筑物影像中的应用, 针对网络中传统卷积核模拟几何结构特征能力存在不足、对目标尺寸适应能力不足和编码网络中特征信息容易丢失的问题, 提出了下采样旁路主干网络和多尺度融合的变形残差金字塔卷积网络. 该网络模型融合下采样旁路主干网络、变形残差金字结构和级联上采样解码器3部分特征, 实现了对原模型网络结构的优化. 最后, 本文在Mnih遥感建筑物数据集上进行了对照实验, 其实验指标和可视化结果均验证了本文改进措施的有效性.
[1] |
杨州, 慕晓冬, 王舒洋, 等. 基于多尺度特征融合的遥感图像场景分类. 光学精密工程, 2018, 26(12): 3099-3107. |
[2] |
Zhong ZL, Li J, Cui WH, et al. Fully convolutional networks for building and road extraction: Preliminary results. 2016 IEEE International Geoscience and Remote Sensing Symposium (IGARSS). Beijing: IEEE, 2016. 1594–1594.
|
[3] |
尚群锋, 沈炜, 帅世渊. 基于深度学习高分辨率遥感影像语义分割. 计算机系统应用, 2020, 29(7): 180-185. DOI:10.15888/j.cnki.csa.007487 |
[4] |
赵斐. 基于金字塔注意力机制的遥感图像语义分割. 国外电子测量技术, 2019, 38(8): 150-154. |
[5] |
苏健民, 杨岚心, 景维鹏. 基于U-Net的高分辨率遥感图像语义分割方法. 计算机工程与应用, 2019, 55(7): 207-213. DOI:10.3778/j.issn.1002-8331.1806-0024 |
[6] |
Ronneberger O, Fischer P, Brox T. U-Net: convolutional networks for biomedical image segmentation. Proceedings of 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2015.234–241.
|
[7] |
Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition. 3rd International Conference on Learning Representations. arXiv: 1409.1556v3, 2014.
|
[8] |
Su D, Zhang H, Chen HG, et al. Is robustness the cost of accuracy?—A comprehensive study on the robustness of 18 deep image classification models. Proceedings of 15th European Conference on Computer Vision. Cham: Springer, 2018. 644–661.
|
[9] |
Dai JF, Qi HZ, Xiong YW, et al. Deformable convolutional networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV). Venice: IEEE, 2017. 764–773.
|
[10] |
Chen LC, Papandreou G, Kokkinos I, et al. DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848. DOI:10.1109/TPAMI.2017.2699184 |
[11] |
Chen LC, Zhu YK, Papandreou G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation. Proceedings of the 15th European Conference on Computer Vision (ECCV). Cham: Springer, 2018. 833–851.
|
[12] |
He KM, Zhang XY, Ren SQ, et al. Deep residual learning for image recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE, 2016. 770–778.
|
[13] |
Wang PQ, Chen PF, Yuan Y, et al. Understanding convolution for semantic segmentation. 2018 IEEE Winter Conference on Applications of Computer Vision (WACV). Lake Tahoe: IEEE, 2018. 1451–1460.
|
[14] |
Mnih V. Machine learning for aerial image labeling. Toronto: University of Toronto, 2013.
|
[15] |
Zhao HS, Shi JP, Qi XJ, et al. Pyramid scene parsing network. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu: IEEE, 2017. 6230–6239.
|
[16] |
王舒洋, 慕晓冬, 杨东方, 等. 融合高阶信息的遥感影像建筑物自动提取. 光学精密工程, 2019, 27(11): 2474-2483. |