2. 中国科学院大学, 北京 100049
2. University of Chinese Academy of Sciences, Beijing 100049, China
帕金森疾病(Parkinson’s Disease, PD)又名震颤麻痹, 老年人中枢神经系统第二大常见退行性疾病, 其特点是黑质致密部多巴胺能神经元逐渐丧失, 运动功能受损[1], 并且表现为多巴胺能(DopAminergic, DA)神经元进行性丧失的特征[2]. 该病症的平均发病年龄大概在60岁左右, 40岁以下发病的青年帕金森病较少见. 据统计, 在全世界大约有七百万到一千万的老年人正在承受着该疾病的困扰. 我国65岁以上人群PD的患病率大约是1.7%[3], 大部分帕金森患者为散发病例, 仅有不到10%的患者有家族史, 所以到目前为止PD的病因和发病机制还未明确.
多系统萎缩症(Multiple System Atrophy, MSA)是一种缓慢进行性的神经退行性疾病[4], 其特征在于以帕金森综合征为主的MSA-P亚型运动减退性障碍和以小脑性共济失调(cerebellar ataxi)为主的MSA-C亚型肢体共济失调.
核磁共振成像(Magnetic Resonance Imaging, MRI)是断层成像的一种, 它利用磁共振现象从人体中获得电磁信号, 并重建出人体信息. 目前该方法已经被广泛的应用于医学成像. 并且在核磁共振图像中我们可以获取物质的多种物理特性参数, 如质子密度, 自旋-晶格驰豫时间T1, 自旋-自旋驰豫时间T2, 扩散系数, 磁化系数, 化学位移等等. 在本实验中根据医生建议采用磁共振扩散加权成像(Diffusion Weighted Imaging, DWI)、T2和冠状面T2水抑制序列(CorT2)三种MRI图像.
1.2 研究现状目前医学科技发展迅速, 但是对于帕金森疾病的诊断多数通过病人的临床症状才能确诊; 然而, 国内外专家通过大量临床经验及实验证明, 帕金森的主要病理改变是黑质纹状细胞的进行性损失和细胞内路易斯小体的聚集, 从黑质、纹状体DA能神经元变性-丢失-出现临床症状要经历一个漫长的临床前过程, 潜伏期约5年, 黑质DA能神经元丢失<50%的患者临床症状不明显. 当患者出现PD临床症状时, 脑内DA能神经元丢失70%~80%[5].
在MR高分辨率T2WI加权像/磁敏感加权成像(SWI)上正常黑质核团-1轴位形似燕尾, 称为燕尾征. PD病理特点是存在于黑质中的多巴胺能神经元进行性缺失. 先前研究发现黑质种存在5个黑质小体, 且最大的黑质小体-1是主要影响PD病理改变的结构. 黑质小体-1位于黑质后1/3, 轴位SWI上表现为条状或者逗号形的高信号, 形似燕尾. 黑质小体所表现的“燕尾”前方、侧面和内侧被SWI低信号围绕, 可见分叉. “燕尾征”消失用于诊断帕金森病准确率大约为90%, 对于帕金森患者而言, 黑质小体-1信号较低, 表现为燕尾征消失[6], 如图1所示.
常规MRI检查可见: 1) 脑萎缩: 主要是锥体外系萎缩引起第三脑室增宽, 弥漫性脑皮层萎缩所致的脑沟增宽. 2) 黑质致密带萎缩: 在T2加权像/质子密度加权像上, 犹豫正常脑组织黑痣网状带和红核中存在高浓度铁, 呈低信号; 致密带铁浓度较低音器局部呈等信号. 此外, 还可见PD患者因黑质细胞变性坏死和铁代谢已成引起的致密带变窄、边缘模糊等表现. 通过观察黑质致密带形态、信号变化、测量黑质致密带宽度以及黑质致密带宽度与中脑的比值, 为诊断PD和鉴别诊断PD与血管性帕金森综合征提供客观依据. 3) 由壳核后外侧部铁沉积引起T2加权像上纹状体区呈低信号[7].
到目前为止, 将深度学习方法和帕金森病症诊断相结合的研究主要在以下方面. Al-Fatlawi和Jabardi等提出使用深度信念网络(Deep Belief Network, DBN)[8]进行帕金森病症诊断, 其中分析的信息为病人的语音信号. 该深度信念网络由两个受限玻尔兹曼机[9]和一个输出层构成, 第一个进行无监督学习, 第二个是进行反向传播微调的监督学习. 在该研究中测试的准确度达到94%. Shamir和Dolber[10]等提出使用深度学习方法检测病人的肢体迟缓程度, 然后进行分类诊断. 在比较传统机器学习方法和基于卷积神经网络的深度学习方法中, 深度学习在准确率方面优于其他机器学习方法4.6个百分点. 以上研究均是基于将深度学习方法和帕金森诊断相结合的. 然而本实验采用帕金森患者的脑图作为病症诊断依据在以上帕金森病症病理诊断中已经做了充分调查研究, 实际效果也体现了实验可行性. 这也是本实验得创新之处.
本实验采用对图像识别有良好效果的深度学习(Deep Learning, DL)方法, 通过深度神经网络模型训练大批量的MRI图像, 并学习图像的特征, 然后进行病症的预测和诊断. 实验中采用的网络是基于AlexNet网络的优化网络. AlexNet是2012年在ImageNet比赛中脱颖而出的网络, 其良好的分类效果斩获了当年的比赛冠军. GoogleNet是2014年ImageNet的比赛冠军. 本实验采用的基础对照模型为AlexNet和GoogleNet, 然后基于AlexNet模型进行优化, 优化后的模型在实验中获得优于原始模型的效果, 并且也优于经典网络GoogleNet.
2 深度学习 2.1 深度学习概况2006年, 深度学习以机器学习领域的一个分支呈现给人们, 它采用多层复杂结构或者采用多重非线性变换构成的多个层进行数据处理[11]. 到目前为止, 深度学习在自然语言处理、语音识别特别是计算机视觉方面取得了突破性进展[12]. 深度学习的优点在于应用分层的高效特征提取方法来代替手工获取特征, 这有效的解决了大批量的人工标注工作. 深度神经网络层次结构如图2.
深度学习的基本思想是通过构建如上图所示多层次神经网络, 从底层向高层逐步学习提取特征, 最终通过大批量数据的训练学习, 构建对应的网络模型, 学习训练对象的相关特征.
2.2 深度神经网络结构目前常见深度神经网络主要包括: 卷积层、池化层、激活层等.
1962年, Hubel和Wiesel通过研究猫眼的瞳孔区域和大脑皮层神经元, 提出了感受野(receptive field)的概念[13]. 后来学者Fukushima又基于此概念提出神经认知机(neocognitron), 这是感受野概念在人工神经网络领域的第一次应用.
含有卷积层的神经网络为多层神经网络, 该卷积层有多个二维矩阵构成, 每个矩阵有多个独立神经元构成. 卷积层的核心在于通过感受野和权值共享的应用减少了深度神经网络要训练的参数个数. 如图3所示.
权值共享为设每个神经元的参数相同, 感受野即对应卷积核局部学习的概念, 通过上图参数对比可知该计算减少了4个数量级[14].
池化层包含两种: 一种是平均值池化, 另一种是最大值池化.
池化操作是特征图缩小操作, 会在原特征图中提取主要特征.
因为线性模型的表达能力不够, 所以引入了非线性模型. 激活层实现的是对输入数据的激活即非线性函数变换. 常用的激活函数有Sigmoid, tanh, ReLU[15]等, 可以根据模型效果选择不同的激活, 通过激活层可以实现数据的更好分类.
3 数据集和预处理 3.1 数据集
本实验数据来自北京301医院, 其原始数据为DICOM (Digital Imaging and Communications in Medicine)图像, 通过RadiAntDICOMViewer软件将病人信息删除并导出img格式. 其中详细为: 训练集: 13 571; 验证集: 2396(占训练集的15%); 测试集: 2237(占总数据的10%).
图6分别为PD、MSA和Normal(正常人)脑图.
3.2 数据数预处理
由于深度神经网络训练需要批量数据学习特征, 所以实验时需要将原始数据进行扩充, 本实验采用以下两种方式进行数据扩充.
3.2.1 图像的旋转图像旋转是指图像以某一点为中心旋转一定的角度形成一幅新的图像的过程, 并且旋转前后的点离中心的位置不变. 假设点(x0, y0)距离原点的距离为r, 点与原点之间的连线与x轴的夹角为b, 旋转的角度为a旋转后的点为(x1, y1), 那么:
原始点的位置:
$\left\{\begin{array}{l}{x_0} = r\cos b\\{y_0} = r\sin b\end{array}\right.$ |
旋转后点的位置:
$\left\{\begin{array}{l}{x_1} = r\cos \left( {b - a} \right) = r\cos b\cos a + r\sin b\sin a\\ \;\;\;\;\;= {x_0}\cos a + {y_0}\sin a\\{y_1} = r\sin \left( {b - a} \right) = r\sin b\cos a - r\cos b\sin a\\ \;\;\;\;\; = - {x_0}\sin a + {y_0}\cos a\end{array}\right.$ |
得到旋转后的坐标, 旋转后的图像的长和宽会发生变化, 要重新计算新图像的长和宽, 计算方法如下: 设原始图像长为srcH, 宽为srcW, 以图像中心为原点左上角, 右上角, 左下角和右下角的坐标用于计算旋转后的图像的高和宽, 它们大小分别为:
$\begin{array}{l}pLT.x = - srcW/2;\;pLT.y = srcH/2\\pRT.x = - srcW/2;\;pRT.y = srcH/2\\pLB.x = - srcW/2;\;pLB.y = - srcH/2\\pRB.x = srcW/2;\;pRB.y = - srcH/2\end{array}$ |
旋转之后的坐标分别设为pLTN, pRTN, pLBN, pRBN, 大小分别为:
$\begin{array}{l}pLTN.x = pLT.x*\cos a + pLT.y*\sin a\\pLTN.y = - pLT.x*\sin a + pLT.y*\cos a\\pRTN.x = pRT.x*\cos a + pRT.y*\sin a\\pRTN.y = - pRT.x*\sin a + pRT.y*\cos a\\pLBN.x = pLB.x*\cos a + pLB.y*\sin a\\pLBN.y = - pLB.x*\sin a + pLB.y*\cos a\\pRBN.x = pRB.x*\cos a + pRB.y*\sin a\\pRBN.y = - pRB.x*\sin a + pRB.y*\cos a\end{array}$ |
旋转后的长和宽分别设为desHeight, desWidth, 大小为:
$\begin{array}{l}desWidth = \max \left( {{\rm {abs}}(pRBN.x - pLTN.x)} \right.,\\\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\left. {{\rm {abs}}\left( {pRTN.x - pLBN.x} \right)} \right)\\desHeight = \max \left( {{\rm {abs}}(pRBN.y - pLTN.y)} \right.,\\\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\left. {{\rm {abs}}\left( {pRTN.y - pLBN.y} \right)} \right)\end{array}$ |
原始图和旋转90°后的图像如图7所示.
3.2.2 图像的镜像处理图像的镜像分为水平镜像和垂直镜像. 设图像的宽为width, 长度为height, (x, y)为变换后的坐标, (x0, y0)为原图像的坐标,
垂直镜像变换:
$\left\{\begin{array}{l}x = {x_0}\\y = height - {y_0} - 1\end{array}\right.$ |
其逆变换:
$\left\{\begin{array}{l}{x_0} = x\\{y_0} = height - y - 1\end{array}\right.$ |
水平镜像:
$\left\{\begin{array}{l}x = width - {x_0}\\y = {y_0}\end{array}\right.$ |
其逆变换:
$\left\{\begin{array}{l}{x_0} = width - x\\{y_0} = y\end{array}\right.$ |
在本实验中采用的是垂直镜像, 实现左右脑图像的对称交换. 垂直镜像图像对比如图8.
4 实验及结果 4.1 优化的AlexNet神经网络
AlexNet神经网络主要包括八个网络层, 5个卷积层, 3个全连接, 在每个卷积层内部有更加细致的层次划分, 如图9所示. 优化后网络如图10.
在第五层的池化层后, 添加归一层:
layer{
name: "norm5"
type: "LRN"
bottom: "pool5"
top: "fc6"
lrn_param{
local_size: 5
alpha: 0.0001
beta: 0.75
}
}
对比如上网络结构可知在原有AlexNet神经网络的第五层, 本实验添加了norm5网络层结构. 对于加norm5实现的是Batch Normalization操作, 在训练深度神经网络的过程中, 其复杂性在于随着前几层参数的变化, 每层输入的分布在训练过程中也发生改变, 所以导致了在训练的过程中学习率(learning rate)要设置的非常小, 减慢了训练速度, 该现象被称为internal covariate shift[16], 由于本实验图像的多样性(脑部的不同位置截图), 所以通过在第五层连接全连接层的位置添加归一化层, 通过归一化输入全连接层的数据, 将其规范化为模型架构的一部分, 使得模型可以使用更高的学习率, 加速收敛, 并且提升了模型效果. 算法实现如下.
Input: Values of x over a mini-batch:
Output:
以上算法实现了对x的小批量激活转换.
2015年Ioffe和Szegedy, 将该方法应用在Inception network[17]用来进行ImageNet classification分类, 取得了第五名4.82%的错误率, 超出了人类的准确率.
GoogleNet以其较深且复杂的网络结构在2014年脱颖而出, 其主要创新在于根据深度和宽度受限设计的, 并且设计了两个辅助loss, 是当下比较成熟的深度神经网络, 所以以其作为对照实验.
4.2 实验结果针对以上两种模型进行了四组实验, 分别是PD vs Normal, PD vs MSA, MSA vs Normal 和PD vs MSA vs Normal. 以上模型训练的GPU设备配置了13块NVIDIA Tesla K80, Intel(R) Xeon(R) CPU E5-2640 v4 6核处理器(2.40 GHz). 四组实验12个模型可以同时训练, 所有模型训练完成不超过20 min. 实验结果如图11至图22.
4.2.1 PD vs Normal (PN)对于PD和Normal即帕金森病症和正常人进行分类实验中(如图11至图13), 在原有AlexNet实验的基础上准确率获得了0.2%的提升, 验证集损失获得了0.01的降低, 训练集损失获得了0.04的降低.
4.2.2 PD vs MSA (PM)
对于PD和MSA即帕金森病症和多系统萎缩进行分类实验中(如图14至图16), 在原有AlexNet实验得基础上准确率获得了1%的提升, 验证集损失保持持平, 训练集损失获得了0.01的降低.
4.2.3 MSA vs Normal (MN)
对于MSA和Normal即多系统萎缩病症和正常人进行分类验证的实验中(如图17至图19), 在原有AlexNet的实验基础上准确率获得了0.3%的提升, 验证集损失获得了0.01的降低, 训练集损失获得了0.03的降低.
4.2.4 PD vs MSA vs Normal (PMN)
对于PD、MAS和Normal即帕金森病症、多系统萎缩症和正常病人三种图像分类的实验中(如图20至图22), 在原有AlexNet的实验基础上准确率获得了0.6%的提升, 验证集损失获得了0.12的降低, 训练集损失与原实验保持持平.
对照原AlexNet实验结果和优化网络的实验结果以及GoogleNet实验结果汇总如表1至表3.
由上表数据分析, 优化的网络结构除了比原AlexNet网络结构较好之外, 通过和GoogleNet的Acc和Loss的相关数据对比可知, 优化的网络依然优于GoogleNet.
5 结束语
本实验基于AlexNet神经网络结构设计了优化版的神经网络. 通过对改进的AlexNet网络和原始网络分别在四组数据中的实验结果进行分析, 改进版的AlexNet展示出了较好的分类效果, 并且优化版的神经网络和GoogleNet实验结果指标对比中依然占优势. 由于本实验数据量有限, 可能存在些许误差, 但本实验为今后的网络优化提供了参考因素, 并且对于医学图像的分类实现了全自动化, 避免了人工筛选造成的误差. 并且对PD的早期诊断和区别PD和MSA病症提供了研究意义.
特别感谢北京301医院提供的实验数据以及相关指导.
[1] |
Tsai CW, Tsai RT, Liu SP, et al. Neuroprotective effects of betulin in pharmacological and transgenic caenorhabditis elegans models of Parkinson’s disease. Cell Transplantation, 2017, 26(12): 1903-1918. DOI:10.1177/0963689717738785 |
[2] |
Scott L, Dawson VL, Dawson TM. Trumping neurodegeneration: Targeting common pathways regulated by autosomal recessive Parkinson’s disease genes. Experimental Neurology, 2017(298): 191-201. DOI:10.1016/j.expneurol.2017.04.008 |
[3] |
朱亨炤. 大定风珠加味治疗帕金森病48例. 中国医药学报, 2001, 16(6): 75. DOI:10.3321/j.issn:1673-1727.2001.06.028 |
[4] |
Levin J, Maaß S, Schuberth M, et al. Multiple system atrophy. In: Falup-Pecurariu C, Ferreira J, Martinez-Martin P, et al., eds. Movement Disorders Curricula. Springer, Vienna. 2017. 183–192. [doi: 10.1007/978-3-7091-1628-9_17]
|
[5] |
Fearnley JM, Lees AJ. Ageing and Parkinson’s disease: Substantia Nigra regional selectivity. Brain, 1991, 114(5): 2283-2301. DOI:10.1093/brain/114.5.2283 |
[6] |
Gao P, Zhou PY, Wang PQ, et al. Universality analysis of the existence of substantia nigra " swallow tail” appearance of non-Parkinson patients in 3T SWI. European Review for Medical and Pharmacological Sciences, 2016, 20(7): 1307-1314. |
[7] |
李坤成, 杨小平. 帕金森病的影像学诊断. 诊断学理论与实践, 2005, 4(4): 273-274. DOI:10.3969/j.issn.1671-2870.2005.04.005 |
[8] |
Al-Fatlawi AH, Jabardi MH, Ling SH. Efficient diagnosis system for Parkinson’s disease using deep belief network. Proceedings of 2016 IEEE Congress on Evolutionary Computation. Vancouver, BC, Canada. 2016. 1324–1330.
|
[9] |
Hinton GE, Sejnowski TJ. Learning and relearning in Boltzmann machines. Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Cambridge, MA, USA. 1986. 282–317.
|
[10] |
Shamir RR, Dolber T, Noecker AM, et al. Machine learning approach to optimizing combined stimulation and medication therapies for Parkinson’s disease. Brain Stimulation, 2015, 8(6): 1025-1032. DOI:10.1016/j.brs.2015.06.003 |
[11] |
LeCun Y, Bengio YA, Hinton G. Deep learning. Nature, 2015, 521(7553): 436-444. DOI:10.1038/nature14539 |
[12] |
Deng L, Yu D. Deep learning: Methods and applications. Foundations & Trends in Signal Processing, 2014, 7(3-4): 197-387. |
[13] |
Hubel DH, Wiesel TN. Receptive fields, binocular interaction and functional architecture in the cat’s visual cortex. The Journal of Physiology, 1962, 160(1): 106-154. DOI:10.1113/jphysiol.1962.sp006837 |
[14] |
张巧丽, 赵地, 迟学斌. 基于深度学习的医学影像诊断综述. 计算机科学, 2017, 44(S2): 1-7. |
[15] |
Zhang C, Woodland PC. Parameterised sigmoid and ReLU hidden activation functions for DNN acoustic modelling. Sixteenth Annual Conference of the International Speech Communication Association. Dresden, Germany. 2015. 3224–3228.
|
[16] |
Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift. Proceedings of the 32nd International Conference on Machine Learning. Lille, France. 2015. 448–456.
|
[17] |
Szegedy C, Liu W, Jia YQ, et al. Going deeper with convolutions. Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA. 2015.
|