计算机系统应用  2023, Vol. 32 Issue (8): 286-294   PDF    
基于SENet和GBDT的改进CNN视网膜疾病多分类
陈可心, 乔焕, 方玲玲     
辽宁师范大学 计算机与人工智能学院, 大连 116081
摘要:由于对眼底视网膜图像进行人工诊断分类时存在效率低、漏诊、误诊等情况, 为辅助医师辨别多种疾病的眼底筛查结果, 降低漏检及误检率, 提出一种基于注意力机制SENet的卷积网络模型和GBDT梯度提升的分类方法来解决视网膜疾病分类问题. 该模型在深度学习模型的基础上, 利用采样卷积网络对提取的视网膜出血、视盘水肿、黄斑区病变这3种特征进行学习, 通过GBDT梯度提升的方法进行识别和分类, 并采用大连市第三人民医院提供的真实临床数据对所提方法的性能进行评价. 结果表明, 该模型在平均准确率, 精确率和召回率分别达到99.27%, 98.35%, 0.9810, 在视网膜疾病临床诊断中具有一定的实用价值.
关键词: 眼底视网膜图像    卷积神经网络    注意力机制    图像分类    
Improved CNN Multi-classification of Retinal Diseases Based on SENet and GBDT
CHEN Ke-Xin, QIAO Huan, FANG Ling-Ling     
School of Computer Science and Artificial Intelligence, Liaoning Normal University, Dalian 116081, China
Abstract: Low efficiency, missed diagnosis and misdiagnosis exist in the manual diagnosis and classification of fundus retinal images. To this end, a convolutional network model based on the attention mechanism SENet and GBDT gradient boosting classification method is proposed to help physicians distinguish the fundus screening results of various diseases and reduce the rate of missed and false detection. Based on the deep learning model, the sampling convolutional network is applied to learn the extracted three characteristics of retinal hemorrhage, optic disc edema and macular degeneration, and the GBDT gradient boosting method is employed for identification and classification. The real clinical data provided by the Third People’s Hospital of Dalian are used to evaluate the performance of the proposed method. The results show that the average accuracy, precision, and recall rates of the model reach 99.27%, 98.35%, and 0.9810 respectively, and the model has certain practical value in the clinical diagnosis of retinal diseases.
Key words: fundus retinal image     convolution neural network (CNN)     attention mechanism     image classification    

1 引言

我国是世界上盲人和视觉损伤患者数量最多的国家之一. 随着我国进入人口老龄化社会, 患者数量或更高. 我国主要致盲性眼病有白内障、近视性视网膜病变、青光眼、角膜病、糖尿病视网膜病变等[1]. 早发现、早治疗、早康复是大多数致盲眼病的治疗原则. 而我国眼科优质医疗资源总量相对不足、人口基数巨大、各地经济发展水平存在较大差异的问题依然存在, 很多眼病患者没有得到应有的医疗或手术, 眼健康工作任务依然艰巨.

眼睛是人体的最精细的器官之一. 眼底是眼睛的内表面, 包括玻璃体、视网膜、视盘和黄斑区等结构. 临床上常依据眼底彩照来诊断眼部疾病, 但在眼底彩照成像时, 会将视网膜3D结构投影到2D图像上, 从而导致图像非血管结构重叠, 降低了低对比度成像时的可见性[2], 如图1所示. 因此, 目前采用的根据医学图像进行人工病变诊断的方式存在许多问题, 如医师阅片效率低、诊断过程中容易出现漏诊和误诊等, 患者病情无法得到及时、有效的预防和治疗. 综上, 对眼底病变图像进行准确分类具有重要意义.

图 1 眼底彩图

深度学习技术在眼底图像处理中具有广泛应用. Grassmann等人[3]建立了基于单个卷积神经网络(CNN)结果集成模型, 通过训练随机森林算法对青光眼进行分类, 但只对眼底视网膜图像的黄斑区域特征提取, 没有进行其他特征或者新的特征组合; Hardas等人[4]使用支持向量机(SVM)预测糖尿病视网膜病变的16类特征, 但由于特征分类过多, 其网络在实验中没有完全展现网络的性能, 准确率为77.3%; 为了提高分类的准确率, Saranya等人[5]基于VGG-16网络体系结构, 对处理过的图像进行CNN不同层的建模, 检测新生血管特征来识别糖尿病视网膜病变的增殖阶段, 然而其新生血管或增殖期的数据集相对较少, 存在检验的局限性; Shyamalee等人[6]利用U-Net对视杯(optic cup, OC)和视盘(optic disc, OD)进行分割, 并分别通过Inception-v3, VGG19和ResNet50这3种模型进行青光眼分类, 得出Inception-v3模型的分类准确率最高, 但其网络训练过程中的时间和资源消耗较大; 为了综合网络效率和性能, Parthiban等人[7]基于深度学习和分级(ICOA-DLDRD)模型的coyote优化算法对视网膜眼底图像新生血管分割并融合, 对糖尿病视网膜病变检测, 但其特征选择和提取有待进一步研究.

随着深度学习的研究, 注意力机制可以进一步提高网络的分类能力. Xu等人[8]采用全局特征和局部特征的相结合的多层深度学习网络, 对CNN网络提取的全局特征进行学习, 但其网络学习过程中眼底局部细节如毛细血管的特征逐渐丢失, 在大样本量无法表现出高准确率; Al-Antary等人[9]利用一种多尺度空间注意网络(MSA-Net)进行分类诊断, 利用多尺度注意机制来增强图像特征后, 通过一系列卷积层生成注意力特征模型, 准确率为87.5%, 其网络分类效率显著提升, 但准确率有待进一步提高; Playout等人[10]提出了多尺度引导注意力网络(MSGANet-RAV)的深度学习方法, 引入注意力模块关注血管的特征信息, 对视盘和视网膜图像中的动静脉像素进行分类, 但由于血管分割背景像素难以区分, 其网络性能有待进一步提升.

根据上述文献, 提取眼底图像特征和引入注意力机制对解决图像分类问题具有重要意义, 但目前可供实际临床应用的方法较少且分类效果不理想. 对此, 为辅助医师诊断视网膜疾病, 利用大连市第三人民医院提供的真实临床数据, 提出了一种针对眼底视网膜图像疾病多分类的临床诊断解决办法, 对实际诊断具有重要参考价值. 本文创新点在于, 通过一种采样卷积网络学习眼底图像所提取的视网膜眼底出血、视盘水肿、黄斑病变特征; 为增强模型对疾病特征的学习能力, 引入注意力机制SENet (squeeze-and-excitation networks)细化图像的特征; 采用梯度提升决策树 (gradient boosting decision tree, GDBT)构建多种疾病分类器, 取最佳残差拟合值来提高GDBT的精度.

2 本文方法

本研究提出的网络由下采样路径和上采样路径两部分组成. 在卷积网络和反卷积网络的结合基础上, 下采样路径通过卷积网络和SENet自注意力机制将输入图像转换为多维特征表示的特征提取器; 上采样路径中将反卷积网络作为一个形状生成器, 从卷积网络提取的特征中产生对象分割, 其分层结构用于捕获不同的特征细节. 如图2, 左半部分为下采样路径, 右半部分为上采样路径.

图 2 采样卷积网络

下采样路径: 首先对输入图像采用ReLU激活函数, 增强模型的鲁棒性, 之后通过自注意力机制SENet来提取特征模型, 以计算高效的方式建模视网膜彩照通道维度(channel)关系来增强网络的表示能力. 使用大小为7×3, 步长为1的卷积核对图像特征进行卷积, 如图3(a)所示. 在卷积网络中, 最大池化内核的大小为2×2, 步长为2, 池化对卷积层所提取的疾病特征信息做进一步降维, 将特征图的维度减少一半, 保留原特征的同时减少了卷积网络参数, 避免过拟合, 提高了网络的稳定性. 但由于池化操作是不可逆的, 为重建通道, 设置一组开关变量记录每个池化区域内的最大值位置[11], 如图3(c)所示.

图 3 反卷积和解池

自注意力机制SENet主要包括挤压(squeeze)操作和激励(excitation)操作[12], 如图4所示. H为二维矩阵高度, W为二维矩阵宽度, C为通道特征数, r为系数1/16. Squeeze操作通过全局池化(global pooling)对全局空间信息压缩, 生成通道描述符, 具有全局的感受野, 压缩前后通道数不变, channel整个空间特征编码为一个全局特征. Excitation操作是捕捉channel之间关系, 通过学习特定样本为每个特征通道生成权重值, 该方法需要建模channel间的相关性, 设计两个全连接层(FC), 并采用Sigmoid和ReLU两个激活函数建立channel间的连接, 用于限制模型的复杂性和帮助训练. 最后的scale操作将excitation输出的归一化权重矩阵和原始channel乘法加权, 添加了在channel上每个特征图的权重系数. 整体而言, SE模块化增强了图像有效特征的影响力, 削弱无关特征的影响力.

上采样路径: 使用大小为7×3, 步长为1的反卷积核将卷积网络的输出通道上采样到原始图像的分辨率, 如图3(b)所示. 在反卷积网络中, 解池操作是利用开关变量将前层重构放置到适当的位置, 保留激活的特征结构, 如图3(d)所示. 特征融合的张量相加add操作在通道数保持不变的情况下, 强化稀疏的特征通道, 避免不同通道间语义信息的混杂. 特征融合后的ReLU激活函数进一步提高神经网络对模型的表达能力. 最后大小为1×1, 步长为1的卷积核将通道映射成视网膜疾病的特征模型.

GBDT从初始训练集训练出一个CART决策树的基学习器, 通过评价学习器的性能对训练的图像样本分布进行重新分配, 基于先前基学习器的训练样本的损失减少梯度方向上, 重新训练下一个新的CART决策树基学习器模型, 如图5.

图 4 自注意力机制SENet模块化

图 5 GBDT算法流程图

对样本X函数估计值进行Logistic变化得到k类视网膜疾病的概率, 引入损失函数对模型进行修正, 训练k棵树去拟合Softmax的每一个分支模型的负梯度, 其负梯度实质上是本轮样本对应类别的真实概率与上一轮预测概率的差值. 损失函数使决策模型逐步逼近最优解, 有效地降低各因素之间的冗余, 使离群值具有鲁棒性. 对于决策树的各个叶子节点的残差拟合值用牛顿-拉夫森算法取近似值, 得出最佳残差拟合值. 通过落到该叶子节点的所有样本的残差近似值计算出增益, 用来更新每一个样本的估计值. 更新后的样本估计值将继续拟合下一轮CART决策树的基学习器, 训练出强学习器. 模型中每一类别对应一棵CART决策树, K个类别都拟合完第1棵树之后才拟合下一棵树. 当所有类别对应决策树拟合完后, 重复构建基学习器, 直至基学习器的数目达到指定的迭代次数, 即决策树的叶子节点数目达到要求. 多个基学习器进行加权结合生成多个决策树, 众多决策树共同构成了GBDT模型.

3 特征提取

青光眼(glaucoma)是视神经病变中最常见的疾病, 如图6(a). 据估计, 2040年全球将有1.118亿人患有这种疾病[13]. 青光眼的发病机制虽然尚不明确, 但其病理性眼压增高、视神经供血不足是主要危险因素. 青光眼通常会导致眼内的压力迅速增高, 只有少量的毛细血管延伸到视神经的中心位置, 使视盘局部供血不足, 产生梗塞, 导致视神经缺血伴视盘水肿[14], 造成缺血性视神经病变(ischemic optic neuropathy, ION), 如图6(b). 临床发现患有缺血性视神经病变的患者也有潜在发展为青光眼的迹象[15]. 缺血性视神经病最常见的症状是视盘边缘碎片性出血, 同时伴有血管出血、黄斑病变. 视神经炎(optic neuritis, ON)是儿童和成人急性视神经损伤的常见疾病. 视神经炎的临床表现有视力丧失、毛细血管扩张和黄斑病变等[16], 如图6(c). 糖尿病性视网膜病变(diabetic retinopathy, DR)是糖尿病引起的并发症之一. 糖尿病使视网膜毛细血管粘性强, 引起血管堵塞, 引发毛细血管症, 进而造成眼底出血, 如图6(d).

图 6 视网膜疾病彩照

眼底疾病病因很多不明且病变特征表现出相似性, 临床上仅凭医师肉眼对视网膜进行诊断很容易把其他眼底疾病误诊[17-19]. 青光眼、缺血性视神经病变、视神经炎、糖尿病性视网膜病变之间没有明显区分的特征, 且随着病理性的发展会出现相似的特征, 给视神经疾病诊断带来极大挑战, 故借助神经网络对图像疾病分类是十分必要的. 为准确实现视网膜疾病分类, 本文提取3种视网膜疾病特征, 分别为眼底出血(retinal hemorrhagic, RH)、视盘水肿(optic disc edema, ODE)和黄斑病变(macular degeneration).

眼底出血是眼科常见疾病, 如图7(b). 眼底出血的发病原因多样. 眼底毛细血管内膜损伤、糖尿病或视网膜血管阻塞等使毛细血管的渗透性增加, 造成血液渗出和视网膜血管回流障碍[20].

视盘水肿是视神经炎、视盘血管炎、缺血性视神经病变等眼底疾病的主要发病特征. 视盘水肿表现为视盘隆起、充血和边缘模糊, 常伴有视网膜深处、出血等继发性病变[21], 如图7(c).

黄斑区负责视觉和色觉, 是视网膜的重要区域之一. 黄斑区网状黄斑病变(reticular macular disease, RMD)和年龄相关性黄斑变性(age-related macular disease, AMD)大多发生在中央凹, 如图7(d). 黄斑区玻璃疣(drusen)是出现在黄斑区病变的早期阶段, 是病变后期视力下降的潜伏危险因素.

本文研究数据由大连市第三人民医院提供. 医院临床数据提供了正常图像彩照和视网膜病变图像彩照, 如图8所示. 临床数据集中的性别和年龄比例是平衡的, 各疾病的图像数量是较均衡的, 如表1所示.

图 7 视网膜病变特征

表 1 临床数据集

图 8 视网膜彩照临床数据

视网膜眼底图像的细节信息, 如毛细血管、黄斑区等可能处于低对比度, 眼底图像增强通常有助于分析与视网膜眼底图像相关的疾病. 为了减少彩色视网膜图像中由于采集过程而产生的噪声影响, 本文采用限制对比度的自适应直方图均衡化(contrast limited adaptive histogram equalization, CLAHE)方法. 彩色视网膜图像与其他图像相比具有独特的特征, 即该图像在绿色(G)通道中占有重要地位, 故G通道CLAHE增强方法来提高彩色视网膜图像的质量[22], 如图9所示. CLAHE方法为[23]: 首先将输入的图像平均分割为大小一样连续且不叠加的子区域, 通过计算剪切幅值得出平均分配的像素个数; 之后对每个子区域的灰度值直方图进行对比度受限后均衡化, 如图10所示; 最后使用插值方法得到最后的增强图像. 将通过CLAHE后的三通道合并, 增强了视网膜的局部对比度, 有效提取视网膜病变的特征, 如图11所示.

图 9 特征提取方法

图 10 直方图均衡

综合特征提取方法与本文卷积网络, 完整方法如图12所示. 视网膜彩照数据集在通道分割后对G通道单独进行CLAHE, 之后将视网膜彩照的RGB三通道合并, 在保留了视网膜彩照中的细节特征的情况下, 视网膜出血斑块、视盘水肿和黄斑病变特征得到显著增强. 下采样卷积网络与SE模块相结合, 减少数据处理量的同时保留有用信息, 混淆特征的具体位置, 能更好适应图像的结构. 上采样卷积网络用于还原图像完整尺寸, 上采样路径通道与下采样路径进行通道融合, 将通道信息进一步叠加, 两路径特征通道互补. 为测量模型准确性, 分别使用80%和20%的数据集进行训练和测试, 由CART决策树的基学习器构建出的分类树共同组成GBDT分类模型. 多个弱分类器决策时, 样本将进入到众多决策树叶子节点中, 通过叶子节点进行加权, 得出权重较大节点所对应的视网膜类别就是决策的结果.

图 11 视网膜彩照特征提取

4 实验与测试 4.1 实验结果分析

实验环境为Windows 11, CPU型号是AMD Ryzen 7 5800 8-Core Processor, GPU型号是AMD Radeon RX 6800 XT. 网络的学习速率设为0.0001, Epoch为10, 最大迭代次数MaxEpochs为20, 小批量梯度下降MiniBatchSize为128. Softmax模型的单样本损失函数为:

$ L = - \sum\limits_{k = 1}^K {y_k\log p_k(X)} $

其中, yk∈{0, 1}, 当样本X属于k类视网膜疾病时, yk取1, 反之, yk取0. pk(X)为k类视网膜疾病的概率.

对应的实验结果如图13所示, 每行表示真实的图像类别, 每列表示预测出的图像类别. 每行分为上下两组, 上一行指识别图像的数量, 下一行指对应图像的比例. 第6行和第6列为每种识别情况下正确识别和错误识别的比例. 本研究利用多种评价指标对模型进行评估, 采用准确率(accuracy), 精确率(precision), 召回率(recall), 特异性(specificity), F1-score指标综合评价分类效果[24], 如表2所示.

图 12 本文方法

图 13 实验结果

表 2 实验结果指标

随着迭代次数的不断增加, 准确率和损失收敛曲线如图14所示. 实验结果的准确率, 精确率, 召回率分别达到99.27%, 98.35%, 0.9810. 该方法对正常、青光眼、缺血性视神经病变、视神经炎、糖尿病性视网膜病变的分类是非常有效的.

4.2 对比实验方法

为了验证本文模型的性能, 采用传统CNN网络、AlexNet的分类网络、GoogLeNet分类网络、VGG16分类网络、Inception-v3分类网络. 本文使用相同的临床数据集和评价指标, 如表3所示. 结果表明, 采用GBDT分类比传统CNN分类准确率提高了16.89%, 比AlexNet、GoogLeNet、VGG16分别提高了5.98%、0.65%、0.57%; 采用注意力机制SE模块化的GBDT分类比单纯采用GBDT进行分类更有效, 准确率提高了1.93%. 本文模型的准确率, 精确率, 召回率均有提升, 在准确率、精确率和F1-score的提升中最为显著.

为证明多特征提取的有效性, 利用医院提供的临床数据集对本文提出的方法进行了对比实验, 包括无提取特征、提取单一特征、提取两个特征和提取多个特征. 由表4可知, 同时提取视网膜出血、视盘水肿和黄斑区病变这3种特征的准确率最高, 比无特征提取、仅提取视网膜出血、仅视盘水肿、仅黄斑区病变的准确率分别提高了6.9%、6.66%、5.6%、7.39%. 3个特征的提取精度最高, 分别比任意两个特征提高5.58%、1.6%和5.25%. 根据实验结果, 从眼底图像中提取出视网膜出血、视盘水肿和黄斑区病变特征对视网膜疾病的分类是非常有效的.

图 14 准确率曲线和损失收敛曲线

表 3 对比其他方法性能

5 结论与展望

本文针对视网膜疾病分类困难的问题, 以大连第三人民医院提供真实的临床数据集为实验对象, 提出一种基于SENet卷积网络模型的GBDT分类方法. 首先利用CLAHE提取眼底图像的眼底出血、视盘水肿、黄斑病变特征; 然后利用采样卷积网络用于学习视网膜彩照所提供的特征并构建图像识别模型, 引入注意力机制SE模块来提高对特征学习的精度; 最后构建GBDT分类决策树并对图像疾病进行分类. 结果表明, 该模型在平均准确率比以往AlexNet、GoogLeNet、VGG16分别提高了5.98%、0.65%、0.57%. 在后续的实验中, 可以将该模型思想应用在其他医学图像的分类问题中, 尝试融合更多特征, 进一步提高网络性能.

表 4 提取不同特征

参考文献
[1]
“十四五”全国眼健康规划(2021–2025年). 中国眼镜科技杂志, 2022(2): 3–9.
[2]
石小周. 基于生成式对抗网络眼底图像生成与深度学习血管分割[硕士学位论文]. 北京: 北京交通大学, 2019.
[3]
Grassmann F, Mengelkamp J, Brandl C, et al. A deep learning algorithm for prediction of age-related eye disease study severity scale for age-related macular degeneration from color fundus photography. Ophthalmology, 2018, 125(9): 1410-1420. DOI:10.1016/j.ophtha.2018.02.037
[4]
Hardas M, Mathur S, Bhaskar A, et al. Retinal fundus image classification for diabetic retinopathy using SVM predictions. Physical and Engineering Sciences in Medicine, 2022, 45(3): 781-791. DOI:10.1007/s13246-022-01143-1
[5]
Saranya P, Prabakaran S, Kumar R, et al. Blood vessel segmentation in retinal fundus images for proliferative diabetic retinopathy screening using deep learning. The Visual Computer, 2022, 38(3): 977-992. DOI:10.1007/s00371-021-02062-0
[6]
Shyamalee T, Meedeniya D. Glaucoma detection with retinal fundus images using segmentation and classification. Machine Intelligence Research, 2022, 19(6): 563-580. DOI:10.1007/s11633-022-1354-z
[7]
Parthiban K, Kamarasan M. Diabetic retinopathy detection and grading of retinal fundus images using coyote optimization algorithm with deep learning. Multimedia Tools and Applications, 2022: 1–20.
[8]
Xu X, Li JQ, Guan Y, et al. GLA-Net: A global-local attention network for automatic cataract classification. Journal of Biomedical Informatics, 2021, 124: 103939. DOI:10.1016/j.jbi.2021.103939
[9]
Al-Antary MT, Arafa Y. Multi-scale attention network for diabetic retinopathy classification. IEEE Access, 2021, 9: 54190-54200. DOI:10.1109/ACCESS.2021.3070685
[10]
Playout C, Duval R, Boucher MC, et al. Focused attention in transformers for interpretable classification of retinal images. Medical Image Analysis, 2022, 82: 102608. DOI:10.1016/j.media.2022.102608
[11]
Zeiler MD, Fergus R. Visualizing and understanding convolutional networks. Proceedings of the 2014 Computer Vision ECCV. Cham: Springer, 2014. 818–833.
[12]
Hu J, Shen L, Sun G. Squeeze-and-excitation networks. Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018. 7132–7141.
[13]
Tham YC, Li X, Wong TY, et al. Global prevalence of glaucoma and projections of glaucoma burden through 2040: A systematic review and meta-analysis. Ophthalmology, 2014, 121(11): 2081-2090. DOI:10.1016/j.ophtha.2014.05.013
[14]
Chan JW. Ischemic optic neuropathies. Optic Nerve Disorders: Diagnosis and Management. New York: Springer, 2014. 41–75.
[15]
Danesh-Meyer HV, Savino PJ, Sergott RC. The prevalence of cupping in end-stage arteritic and nonarteritic anterior ischemic optic neuropathy. Ophthalmology, 2001, 108(3): 593-598. DOI:10.1016/s0161-6420(00)00602-3
[16]
Burton EV. Optic Neuritis: Clinical Manifestations, Pathophysiology, and Management. Minagar A. Neuroinflammation. 2nd ed., London: Academic Press, 2018. 337–353.
[17]
田国红, 陈倩. 视盘水肿的鉴别及病因分析. 中国眼耳鼻喉科杂志, 2017, 17(5): 378-381. DOI:10.14166/j.issn.1671-2420.2017.05.020
[18]
赵芳, 李双. 视神经炎临床误诊54例分析. 国际眼科杂志, 2015, 15(3): 546-548. DOI:10.3980/j.issn.1672-5123.2015.3.46
[19]
Biousse V, Newman NJ. Ischemic optic neuropathies. New England Journal of Medicine, 2015, 372(25): 2428-2436. DOI:10.1056/NEJMra1413352
[20]
刘春梅. 人性化护理在眼底出血患者中的应用评估. 养生保健指南, 2021(33): 193.
[21]
王雨生, 惠玲, 惠延年. 视盘水肿. 国际眼科杂志, 2003, 3(3): 21-26. DOI:10.3969/j.issn.1672-5123.2003.03.005
[22]
Setiawan AW, Mengko TR, Santoso OS, et al. Color retinal image enhancement using CLAHE. Proceedings of the 2013 International Conference on ICT for Smart Society. Jakarta: IEEE, 2013. 1–3.
[23]
张丽. 对比度受限自适应直方图均衡方法. 电脑知识与技术, 2010, 6(9): 2238, 2241. DOI:10.3969/j.issn.1009-3044.2010.09.082
[24]
Da Rocha DA, Ferreira FMF, Peixoto ZMA. Diabetic retinopathy classification using VGG16 neural network. Research on Biomedical Engineering, 2022, 38(2): 761-772. DOI:10.1007/s42600-022-00200-8