2. 福建省大数据管理新技术与知识工程重点实验室, 泉州 362000;
3. 泉州师范学院 教育科学学院, 泉州 362000;
4. 泉州市林业局森林资源管理站, 泉州 362000;
5. 福建省林业调查规划院, 福州 350000;
6. 中国科学院 遥感与数字地球研究所, 北京 100094
2. Fujian Provincial Key Laboratory of Data Intensive Computing, Quanzhou 362000, China;
3. School of Educational Science, Quanzhou Normal University, Quanzhou 362000, China;
4. Forest Resource Station, Quanzhou Forestry Bureau, Quanzhou 362000, China;
5. Fujian Forest Inventory and Planning Institute, Fuzhou 350000, China;
6. Institute of Remote Sensing and Digital Earth, Chinese Academy of Sciences, Beijing 100094, China
森林类型分类或树种识别是森林经营与管理的关键环节, 高光谱遥感技术用于森林类型或树种识别取得一系列的成果[1-3]. 近20年来, 以高光谱遥感图像为数据源的森林类型、树种类型的识别算法主要分为基于光谱特征[4]、基于光谱匹配[5]和基于统计分析方法[3, 4]. 但由于高光谱图像数据量大且存在较高的谱间相关性和空间相关性, 导致Hughes现象[6], 通常采取特征选择和特征提取两种方式进行降维处理. 特征选择的目的是选择出对分类最有用的参数, 压抑或限制无用信息, 使选择后的特征参数尽可能大地反映类别之间的差异, 并且彼此之间的相关性尽可能弱. 王玲段等运用最佳指数法、波段指数法对HJ-1A卫星HIS影像进行波段选择, 筛选出3种波段组合(28-40-77、28-54-75、20-40-58)集中在红光和近红外波段, 对3种经济林识别精度达到70%以上[7]. 李俊明等用光谱混合距离判断出HJ-1A影像中波长508.42 nm、696.85 nm、885.18 nm为区分阔叶林和混交林的最佳波段组合[8]. Koedsin等采取遗传算法对EO-1Hyperion高光谱数据进行波段选取7波段(549、712、732、1034、1235、2073、2083 nm)的“染色体”获得最高树种可分性[9]. 特征提取是建立在各光谱波段间的重组和优化基础上的运算. 通过数学变换的方式将原始数据矢量空间投影到维数低的新的空间中, 从而实现降低空间维的目的, 但改变了图像的原有特性. 高光谱特征提取和特征压缩技术主要包括最小噪音分离变换、典范变量分析、独立成分分析ICA以及主成分分析PCA. Ballanti等人与Zhang等人均采用最小噪音分离变换方法对高光谱数据进行特征提取, 并取得较好树种识别精度[3, 4].
深度学习是当前机器学习与人工智能研究热点, 是指超过三层的神经网络模型[10], 模仿人类大脑的层次结构, 是一组尝试通过使用体系结构的多个非线性变换组成模型中数据的高级抽象机器学习算法. 深度学习由加拿大多伦多大学Hinton教授于2006年提出的一种有效的特征提取及分类方法[11], 被应用到语音识别、图像识别、计算机视觉等领域, 并取得了良好的识别效果. 深度学习典型方法包括限制玻尔兹曼机、深度信念网络、卷积神经网络和自动编码器等[12]. 深度学习新方法包括递归神经网络及其变种模型长短时记忆模型和生成对抗网络等. 深度学习方法用于遥感图像处理取得快速发展[13-15], 由于深度学习方法训练与测试需要大量样本数据, 大多对现有标准数据集[16]进行研究, 实际应用微乎其微[17, 18], 在林业遥感领域, 只见李英杰等人利用线性稀疏自动编码器用于林业图像分类研究[19]. 目前, 尚未见文献报道深度学习方法在林业高光谱遥感分类中应用. 因此, 论文将研究深度信念网络用于环境与灾害监测预报小卫星HJ-1A高光谱影像森林类型识别研究, 通过深层的学习, 可以充分、自动、高效利用高光谱的各个波段进行特征提取, 为高光谱林业遥感处理, 乃至智慧林业等方向研究提供新的研究视角.
1 研究方法 1.1 受限玻尔兹曼机 1.1.1 受限玻尔兹曼机模型一个受限制玻尔兹曼机有两层, 如图1所示, 一层是输入层v(或说可见层), i为任意一个节点; 另一层是输出h(或隐藏层), j是其中的一个节点, 可见层与隐藏层为全连接关系. 同一层的单元之间没有连接关系. RBM是一个无向的生成能量模型, RBM所具有能量如式(1)所示.
$E\left( {\left. {v,h} \right|\theta } \right) = - \sum\limits_{i = 1}^I {{a_i}} {v_i} - \sum\limits_{j = 1}^J {{b_j}} {h_j} - \sum\limits_{i = 1}^I {\sum\limits_{j = 1}^J {{v_i}{h_j}{\omega _{_{ij}}}} } $ | (1) |
其中,
$P\left( {\left. {v,h} \right|\theta } \right) = \frac{{{e^{ - E\left( {\left. {v,h} \right|\theta } \right)}}}}{{Z\left( \theta \right)}}$ | (2) |
$P\left( {\left. {{h_j} = 1} \right|v,\theta } \right) = \sigma \left( {{b_j} + \sum\limits_{i = 1}^I {{v_i}{\omega _{ij}}} } \right)$ | (3) |
同理, 给定隐藏层节点的参数时, 可见层任一节点的激活概率为:
$P\left( {\left. {{v_i} = 1} \right|h,\theta } \right) = \sigma \left( {{a_i} + \sum\limits_{j = 1}^J {h{}_j{\omega _{ij}}} } \right)$ | (4) |
其中,
$\sigma \left( x \right) = \frac{1}{{1 + {e^{ - x}}}}$ |
$E = \frac{1}{2}\sum\limits_k^K {{{\left( {{d_k} - {o_k}} \right)}^2}} $ | (5) |
$\Delta {\omega _{ij}} = \varepsilon \left( {{{\langle {v_i}{h_j}\rangle }_{\rm {data}}} - {{\langle {v_i}{h_j}\rangle }_{\rm {recon}}}} \right)$ | (6) |
$\Delta {a_i} = \varepsilon \left( {{{\langle {v_i}\rangle }_{\rm {data}}} - {{\langle {v_i}\rangle }_{\rm {recon}}}} \right)$ | (7) |
$\Delta {b_j} = \varepsilon \left( {{{\langle {h_j}\rangle }_{\rm {data}}} - {{\langle {h_j}\rangle }_{\rm {recon}}}} \right)$ | (8) |
式中,
一个深度信念网络由多层RBM构成, 如图2所示. DBN有两个关键的训练步骤: 一个是预训练, 另一个是微调.
1.2.1 预训练
预训练DBN是无监督的过程. 采用对比散度算法, 自底向上逐层训练RBM, 直到最后的隐藏层为止, 这样使DBN从原始的输入数据中提取更多的深层特征.
1.2.2 使用反向传播算法进行微调反向传播算法最初是由Rumbelhart提出的, 是监督分类的过程. 在预训练中, 通过逐层训练, 得到最终预测的分类结果. 然而, 真实的结果与实际预测结果存在误差, 反向传播算法根据此误差向后微调DBN的参数, 并通过灵敏度
$\delta {}_k = {o_k}\left( {1 - {o_k}} \right)\left( {{d_k} - {o_k}} \right)$ | (9) |
对第l层隐藏层来说,
$\delta _{{}_i}^l = \left( {1 - {o_i}} \right){o_i}\sum\limits_j^n {\omega _{ij}^l} \delta _{{}_j}^{l + 1}$ | (10) |
批处理的更新规则如下:
$\omega _{ij}^l = \omega _{ij}^l + {\varepsilon _{\rm {fine - tuning}}}{o_i}\delta _j^{l + 1}$ | (11) |
$b_j^l = b_j^l + {\varepsilon _{\rm {fine - tuning}}}\delta _j^{l + 1}$ | (12) |
对分类结果质量的总体评价可以用总体精度来表示, 总体精度等同于被正确分类的像素总数除以总像素个数的总和. 在混淆矩阵的对角线上, 分布着被正确分类的像素个数, 它能够匹配正确分类的像素数与真实分类的个数. 根据混淆矩阵计算总体精度的公式可以列出如下:
$p = \sum\limits_{i = 1}^c {{m_{ii}}} /N$ | (13) |
其中, C表示分类的总体个数,
Kappa系数是采用多元离散分析技术来反映分类结果与参考数据之间的一致性的指标. 由于它将混淆矩阵中的全部因子都考虑在内, 因此将其视为一个更为客观的评价指标, 其定义为:
$k = \frac{{N\displaystyle\sum\limits_{i = 1}^c {{m_{ii}}} - \displaystyle\sum\limits_{i = 1}^c {\left( {{m_{i + }}{m_{ + i}}} \right)} }}{{{N^2} - \displaystyle\sum\limits_{i = 1}^c {\left( {{m_{i + }}{m_{ + i}}} \right)} }}$ | (14) |
其中,
研究选用HJ-1A星HSI数据2级产品, 成像时间为2011年8月24日, 共115个波段, 空间分辨率为100 m. 研究区为福建省泉州市德化县西部8个乡镇, 其行政区范围及假彩色合成影像(第105、70、40波段进行假彩色合成)如图3. 该产品影像数据经过系统几何校正和辐射校正, 校正误差不小于一个像元, 校正后影像统一到指定的地图投影坐标系下(西安1980坐标系). HSI影像数据的部分波段存在明显的条纹, 主要包括第1–29波段, 严重影响图像的质量和应用, 因而本研究将前29个波段剔除, 剩余86个波段, 波长区间范围(529.6350–951.54 nm).
2.2 实验处理流程实验总体处理流程如图4所示, 先进行数据准备, 然后搭建好tensorflow1.11.0框架开发环境, 数据集转换成Python程序容易处理的csv文件, 进行训练集与测试集划分, 再进行实验对比. 实验基于Windows 10 64位操作系统, 处理器型号为Intel(R)Core(TM)i5-8250U CPU @1.60 GHz 1.80 GHz, 实验在PyCharm 2018.3x64编辑器中进行编码与参数调优, 加载Python扩展库, 包括深度学习TensorFlow、numpy、Pandas、Matplotlib等[21].
实验中, 依据二类调查数据, 选取带标签样本, 同时对86个波段数据作为DBN的输入, 并进行归一化处理, 同时对标签进行独热编码(One-hot编码), 再对数据集进行随机打乱, 选取训练、测试两部分数据. 将训练好的参数保存在Tensorboar中, 对整体数据加载、混淆矩阵输出, 绘制图像, 并将结果与SVM对比.
2.3 训练样本与测试样本分配研究区域共97 258个像素点被分类, 为提高DBN分类效果, 通过多次预实验, 选取28 000个已知类别的像素点作为训练样本与测试样本, 其中51 989个像素点是针叶林, 6142个像素点是阔叶林, 16 283个像素点是混交林, 其余28 986个像素点为非林地. 在训练过程中, 针叶林类有10 000个训练样本, 其他每个子类有6000个训练样本. 如表1.
3 结果与分析 3.1 隐藏层层数对分类结果的影响
目前, 由于对于DBN结构的选择尚且没有完善的理论基础, 基本靠实验调参, 给出最优参数. 合适的网络深度影响最终分类结果与运行时间. 当DBN的层数过多, 容易过拟合现象. 反之, 容易产生欠拟合现象. 实验中, 首先固定其它超参数, 如学习率为0.001, 激活函数为Sigmoid, 批处理量100, 梯度下降方式采取rmsp, 迭代次数1000, cd-k为1. 每个隐藏层节点数均采用256. 对DBN的层数是从{3, 4, 5, 6, 7}中选取, 采用网络搜索方式进行参数调优, 不同隐藏层层数对分类结果影响见图5. 当隐藏层层数为3时, 总体精度与Kappa系数最大.
3.2 隐藏层节点数对分类结果的影响
隐藏层节点数量选择不当常常造成训练出现“过拟合”现象. 隐藏节点过少时, 网络对数据的拟合性能很差, 甚至无法有效的完成分类任务; 过多时, 会造成训练时间增加, 寻找最优解过程中陷入局部最优的机率提高. 实验中, 固定DBN的层数为3, 其它超参数也不变, 隐藏层的节点数量依次从{16, 32, 64, 128, 256, 512}中选取, 实验结果如图6所示, 当隐藏层节点数为256时, 总体精度和Kappa系数最大.
3.3 与支持向量机分类方法的比较
支持向量机方法采用的核函数为径向基函数(RBF), 惩罚因子C的范围在[1, 0.1, 0.001]上寻找, 训练样本与测试样本与DBN方式保持一致. 采用5折交叉验证与网络搜索方法对SVM进行参数调优, 当C值取1时获得最高总体精度, 达到73%, Kappa系数为0.6447. 深度信念网络与支持向量机分类结果比较, 见表2与图7. 图7中, 绿色为针叶林, 阔叶林为黄色, 粉红色为混交林, 蓝色为非林地.
从表2可知, DBN在各森林类型的分类精度以及总体精度、Kappa系数都略高于SVM. 究其原因, 深度信念网络方法将高光谱所有波段特征全部作为输入, 通过受限玻尔兹曼机的无监督学习, 自底向上进行预训练, 获取初始特征参数, 对各种森林类型进行深层特征提取; 同时, 通过自顶向下的有监督学习进行参数调优, 更有效挖掘出森林类型地物特征, 提高分类效果.
当隐藏层层数为3, 隐藏层节点数为256时, 是深度信念网络的最优参数, 此时, DBN分类结果的混淆矩阵见表3. 由表3可知, 阔叶林精度最低, 仅为83.0%. 混交林精度最高, 达到95.4%.
4 结论与讨论 4.1 结论
本文借助DBN模型与HJ/1A高光谱影像, 通过无监督的预训练和有监督的微调对泉州市德化县西部8个乡镇进行森林类型识别研究, 通过大量实验调参, 层数为3, 每层节点数为256的网络结构对森林类型识别效果最好, 总体精度达85.8%, Kappa系数为0.785, 好于支持向量机的分类结果, 证明了深度信念网络用于森林类型分类的优越性.
4.2 讨论(1) 本文利用深度信念网络方法进行森林类型识别研究, 具有研究方法创新, 该方法分类结果好于传统决策向量机, 但该方法如何解决“同物异谱”和“同谱异物”的机理尚不明确.
(2) 结合二类调查数据, 选取近1/3的样本作为训练与测试样本, 才提高了分类效果, 但现实研究中, 如果样本量较少, 或没有样本, 如何利用对抗生成网络进行扩展样本将是下步研究重点.
(3) 本文仅从光谱特征出发, 没有利用空间特征, 以及光谱特征与空间特征(空谱联合特征), 而这些特征可以深层次的挖掘数据的内部特征, 是否可以提高分类效果值得进一步研究.
(4) 最优的网络结构只是针对森林类型识别而言, 二级、三级地类识别的最优网络结构需要进一步研究, 同时, 迫切需要建立适用于林业遥感的深度学习分类方法的标准与规范.
[1] |
谭炳香, 李增元, 陈尔学, 等. 高光谱与多光谱遥感数据的森林类型识别. 2005年中国科协学术年会26分会场论文集(2). 新疆, 中国. 2005.
|
[2] |
宫鹏, 浦瑞良, 郁彬. 不同季相针叶树种高光谱数据识别分析. 遥感学报, 1998, 2(3): 211-217. DOI:10.11834/jrs.19980310 |
[3] |
Ballanti L, Blesius L, Hines E, et al. Tree species classification using hyperspectral imagery: A comparison of two classifiers. Remote Sensing, 2016, 8(6): 445. DOI:10.3390/rs8060445 |
[4] |
Zhang ZY, Kazakova A, Moskal LM, et al. Object-based tree species classification in urban ecosystems using LiDAR and hyperspectral data. Forests, 2016, 7(6): 122. |
[5] |
周利鹏, 马金辉. 基于高光谱影像的舟曲曲瓦沟树种识别. 安徽农业科学, 2014, 42(16): 5298-5301, 5323. DOI:10.3969/j.issn.0517-6611.2014.16.119 |
[6] |
Hughes G. On the mean accuracy of statistical pattern recognizers. IEEE Transactions on Information Theory, 1968, 14(1): 55-63. DOI:10.1109/TIT.1968.1054102 |
[7] |
王玲段, 王振锡, 吴智乐, 等. 基于HJ-1A卫星HSI影像的阿克苏地区主栽经济林树种识别研究. 新疆农业大学学报, 2016, 39(2): 137-142. DOI:10.3969/j.issn.1007-8614.2016.02.010 |
[8] |
李俊明, 邢艳秋, 杨超. 基于森林类型光谱特征的最佳波段选择研究—以HJ/1A高光谱影像为例. 森林工程, 2013, 29(4): 42-46. DOI:10.3969/j.issn.1001-005X.2013.04.009 |
[9] |
Koedsin W, Vaiphasa C. Discrimination of tropical Mangroves at the species level with EO-1 Hyperion data. Remote Sensing, 2013, 5(7): 3562-3582. DOI:10.3390/rs5073562 |
[10] |
Alpaydin E. Introduction to Machine Learning. London: The MIT Press, 2014. 436–444.
|
[11] |
Hinton GE, Salakhutdinov RR. Reducing the dimensionality of data with neural networks. Science, 2006, 313(5786): 504-507. DOI:10.1126/science.1127647 |
[12] |
LeCun Y, Bengio Y, Hinton G. Deep learning. Nature, 2015, 521(7663): 436-444. |
[13] |
吕启, 窦勇, 牛新, 等. 基于DBN模型的遥感图像分类. 计算机研究与发展, 2014, 51(9): 1911-1918. DOI:10.7544/issn1000-1239.2014.20140199 |
[14] |
Chen YS, Zhao X, Jia XP. Spectral-spatial classification of hyperspectral data based on deep belief network. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2015, 8(6): 2381-2392. DOI:10.1109/JSTARS.2015.2388577 |
[15] |
张号逵, 李映, 姜晔楠. 深度学习在高光谱图像分类领域的研究现状与展望. 自动化学报, 2018, 44(6): 961-977. |
[16] |
焦李成, 赵进, 杨淑媛, 等. 深度学习、优化与识别. 北京: 清华大学出版社, 2018. 331–338.
|
[17] |
罗仙仙, 曾蔚, 陈小瑜, 等. 深度学习方法用于遥感图像处理的研究进展. 泉州师范学院学报, 2017, 35(6): 35-41. |
[18] |
Yao CC, Luo XX, Zhao YD, et al. A review on image classification of remote sensing using deep learning. 2017 3rd IEEE International Conference on Computer and Communication. New York, NY, USA. 2017. 1947–1955.
|
[19] |
李英杰, 张广群, 汪杭军. 基于自学习特征的林业业务图像分类方法. 林业科学, 2018, 54(5): 77-86. |
[20] |
Hinton GE. Training products of experts by minimizing contrastive divergence. Neural Computation, 2002, 14(8): 1771-1800. DOI:10.1162/089976602760128018 |
[21] |
董付国. Python程序设计基础与应用. 北京: 机械工业出版社, 2019. 1–8.
|