近年来, 通过自动生成方法获取多模态MR图像得到了广泛研究, 但仍难以通过一种模态直接生成其他各类模态的图像. 针对该问题, 本文提出了动态生成对抗网络. 新模型通过将生成对抗网络与动态卷积相结合, 同时加入任务标签这一条件, 实现从一种MR模态同时生成其他3种MR模态. 同时为了提高图像生成质量, 进一步提出了多尺度判别策略, 通过融合多个尺度来提升判别效果. 基于BRATS19数据集进行生成验证, 实验结果表明, 新方法不但可以同时生成多种模态的数据, 而且提高了生成图像的质量.
In recent years, obtaining multi-modality magnetic resonance (MR) images with automatic generation methods has been widely studied. However, it is still difficult to generate images of all the other modalities by one given modality. To solve this problem, this study proposes a dynamic generative adversarial network (DyGAN) model. By combining the generative adversarial network and dynamic convolution and introducing a task label, the new model can simultaneously generate other three MR modalities from one modality. In addition, a multi-scale discrimination strategy is further proposed to improve the quality of image generation by fusing multiple scales. Image generation is verified on the BRATS19 dataset. The experimental results show that the new method can not only simultaneously generate multi-modality images but also improve the quality of the generated images.
脑胶质瘤是最常见的原发性颅内肿瘤, 占恶性脑肿瘤的81%, 虽然相对罕见, 但却造成了显著的死亡率[
近年来, 随着生成对抗网络(generative adversarial networks, GAN)[
但是, 上述的方法只解决了诸如数据稀缺和单一模态的图像生成问题, 而MR医学图像通常包含4种模态, 如果面临另外几种(不只一种)模态缺失的情况, 利用传统方法, 则需要通过多个网络来分别生成, 而训练多个网络必然带来计算资源浪费和可扩展性差的问题. 另一方面, GAN的训练本身又具有脆弱和不稳定性[
另一方面, 虽然卷积神经网络在诸多领域中取得了巨大成功, 但其性能的提升往往源于模型深度与宽度的增加, 这将导致计算量的提升. 近年来, 动态卷积[
基于上述问题, 我们将动态卷积和GAN结合用于多模态图像的生成, 提出了一种动态生成对抗网络(dynamic GAN, DyGAN). 新网络通过在卷积核上加入条件, 来控制生成不同模态的图像所对应的卷积核参数, 实现由一种模态同时生成多种模态的MR图像. 同时, 为了提高图像生成的质量, 本文又提出了多尺度判别器, 通过在一个网络中同时分别进行多种不同深度的下采样, 实现了综合判别多个尺度特征图的真假. 采用BRATS19数据集进行图像生成实验, 实验结果证明了本文方法的有效性.
pix2pix在有配对的图像转换领域, 可以一对一的将一种模态转换成另一种模态. 它由一个生成器
pix2pix训练过程
但是, pix2pix只能一对一的将一种模态转换成另外一种模态, 如果面临多种模态缺失的问题, 想要同时生成多种模态的MR图像, 则需要训练多个pix2pix网络才能实现. 如
DyGAN与pix2pix多模态转化区别
现有的动态卷积大致可以分为两类. 第一, 通过注意力机制来自适应的结合提前初始化好的卷积参数来完成动态变更, 如Yang等人[
在第1种动态卷积的方法中, 最具代表性的是Yang等人[
CondConv结构
在配对的图像转换领域, pix2pix虽然可以一对一的将一种模态的图像转换成另外一种模态, 但它却无法同时生成多种模态的图像. 针对该问题, 本文在pix2pix的基础上, 提出了动态生成对抗网络DyGAN, 通过结合动态卷积, 并加入任务标签这一条件, 将不同的模态转换定义为不同的任务, 来控制生成器输出不同模态的图像. 如
DyGAN训练过程
在训练判别器中, 上方矩形框中为使判别器判断为真的输入, 下方矩形框中为使判别器判断为假的输入. 与pix2pix类似, 其他模态真实的图像(real modality)与真实的T2 (real T2)相结合, 同时输入判别器才为真. 相反, 生成器生成其他模态的图像(fake modality)与真实的T2 (real T2)相结合, 输入判别器为假. 与pix2pix不同的是判别器D还需要在任务标签(task label)的控制下, 判断不同任务下图像的真假. 在训练生成器中, 在当前任务(task label)下, 将真实的T2 (real T2)输入生成器
在多任务多模态医学图像生成中, 比如T2同时生成其他3种模态T1、T1CE和FlAIR, 是同一张图像同时生成3种不同模态的医学图像. 为此, 我们通过对不同模态的图像编码, 并将该编码作为输入的条件. MR医学图像通常有4种模态, 由其中一种模态转化成另外3种模态可以有12种任务组合, 我们分别对这12种任务分别进行one-hot编码, 如
多模态任务编码
任务 | one-hot编码 |
FLAIR生成T1 | 000000000001 |
FLAIR生成T1CE | 000000000010 |
FLAIR生成T2 | 000000000100 |
T1生成FLAIR | 000000001000 |
T1生成T1CE | 000000010000 |
T1生成T2 | 000000100000 |
T1CE生成FLAIR | 000001000000 |
T1CE生成T1 | 000010000000 |
TICE生成T2 | 000100000000 |
T2生成FLAIE | 001000000000 |
T2生成T1 | 010000000000 |
T2生成T1CE | 100000000000 |
本文提出的多模态动态卷积结构如
DyConv结构
本文生成器采用U-Net网络结构[
在原生成对抗网络中, 判别器仅输出一个值(真或假)来对整幅图像进行评价, 显然缺乏对生成图像细节的评价. 为了解决这一问题, pix2pix提出了PatchGAN[
为此, 在Pix2pixHD的基础上, 本文提出在一个判别器中完成对3个不同大小尺度的特征图进行判别, 其结构如
编码解码网络
多尺度判别器网络结构
同时, 结合上面的生成器结构, 本文又测试了仅在生成器采用DyConv以及在生成器与判别器中均使用DyConv两种情况. 结果发现生成器和判别器均采用DyConv效果更好, 实验结果见
本文应用LSGAN[
多模态图像生成结果
方法 | |||||||
FLAIR | T1 | T1CE | FLAIR | T1 | T1CE | ||
3*pix2pix | 23.2853 | 22.4321 | 24.3262 | 0.8932 | 0.8920 | ||
MGAN | 23.2601 | 22.5030 | 24.2171 | 0.8614 | 0.8884 | 0.8745 | |
DyGAN | 23.6634 | 22.8382 | 0.8765 | 0.8997 | 0.8980 | ||
Ms_DyGAN | 24.6364 | 0.8767 |
由于本文基于pix2pix的方法, 训练网络需要配对的图像
同时, 为了增加生成图像的准确性, 我们进一步加入了
最终, 新的目标函数定义为:
其中,
本文实验采用BRATS19数据集. 该数据集包含259个HGG病例和76个LGG病例. 其中每个病例均有配对的T1、T2、T1CE和FLAIR四种模态的MR图像, 图像大小为240×240×155. 实验选择220个HGG病例和60个LGG病例作为训练集, 剩余的HGG和LGG病例作为测试集. 对于每个240×240×155大小的图像, 我们从脑占比最大且较清晰(75–85之间)的图像中切取出5张作为本实验的数据集. 由于T2磁共振图像是临床中广泛使用的模态, 因此本文的实验使用T2模态来合成其他3种模态的MR的图像.
在数据处理方面, 实验将切取的每张240×240大小的图像大小调整为256×256, 然后将原始数据线性缩放至[−1, 1]之间. 在参数初始化方面, 本文采用He等人[
为评价生成图像的质量, 本文采用峰值信噪比(
其中,
其中,
对于本文定义的目标函数, 我们首先通过实验来确定系数
FlAIR | T1 | T1CE | FlAIR | T1 | T1CE | ||
1 | 21.1721 | 21.9108 | 23.4667 | 0.8249 | 0.8743 | 0.8491 | |
10 | 22.7145 | 22.5283 | 23.9847 | 0.8482 | 0.8761 | 0.8790 | |
20 | 22.1168 | 22.4204 | 23.8752 | 0.8423 | 0.8840 | 0.8765 | |
30 | 22.3925 | 22.2216 | 24.2719 | 0.8402 | 0.8780 | 0.8732 | |
50 | 22.4316 | 22.4352 | 24.6032 | 0.8519 | 0.8886 | 0.8827 | |
100 | 22.8284 | 24.7043 | |||||
150 | 22.4554 | 22.4687 | 24.3741 | 0.8508 | 0.8835 | 0.8857 | |
200 | 22.5848 | 22.7946 | 24.7587 | 0.8557 | 0.8951 | 0.8953 | |
250 | 22.7390 | 0.8533 | 0.8908 | 0.8899 | |||
300 | 22.7175 | 22.7366 | 24.6900 | 0.8576 | 0.8958 | 0.8938 |
为了测试动态卷积的图像生成性能, 针对pix2pix的生成器, 我们比较了在生成器中下采样用动态卷积、上采样用动态卷积和上下采样均使用动态卷积、以及生成器上采样采用动态卷积和判别器也采用动态卷积4种情况, 实验结果如
实验结果表明只上采样用动态卷积和上下采样均使用动态卷积效果相差不大, 但均优于基准模型pix2pix和下采样用动态卷积. 同时, 本文测试了在判别器中也使用动态卷积, 结果证明在生成器和判别器中均使用动态卷积的效果最好. 整个实验过程本文使用T2模态生成T1模态, 生成图比较如
单一模态图像生成结果
方法 | ||
pix2pix | 22.4321 | 0.8932 |
only down | 22.2052 | 0.8872 |
only up | 22.7242 | 0.8915 |
down+up | 22.6783 | 0.8928 |
only up+D |
单一模态生成结果图示例
为了进一步验证本文方法的效果, 我们以T2模态生成其他3种模态图像为例, 将本文方法与pix2pix、MGAN进行了对比, 验证结果如
实验结果表明, 将DyConv与pix2pix相结合(DyGAN), 各项指标均优于MGAN. 不仅如此, 除了Flair模态的
多模态生成结果图示例
针对多模态MR图像的生成方法难以通过一种模态同时生成其他所有模态的问题, 论文一方面将动态卷积应用于生成对抗网络, 提出了动态生成对抗网络模型; 另一方面, 通过任务标签的形式对不同模态的图像进行编码, 并将编码结果与动态生成对抗网络结合, 从而有效实现了由一种模态同时生成多种MR模态的数据. 在此基础上, 我们进一步提出多尺度的判别器网络, 提高了判别器的判别性能. 实验结果表明, 本文方法有效解决了难以同时生成多种模态数据的问题, 并同时提高了生成图像的质量.
Ostrom QT, Bauchet L, Davis FG,
et al. 3D cGAN based cross-modality MR image synthesis for brain tumor segmentation. 2018 IEEE 15th International Symposium on Biomedical Imaging (ISBI 2018). Washington: IEEE, 2018. 626–630.]]>
et al. Deep adversarial learning for multi-modality missing data completion. Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. London: ACM, 2018. 1158–1166.]]>
et al. Multi-modality generative adversarial networks with tumor consistency loss for brain MR image synthesis. 2020 IEEE 17th International Symposium on Biomedical Imaging (ISBI). Iowa City: IEEE, 2020. 1803–1807.]]>
et al. Deep learning based imaging data completion for improved brain disease diagnosis. Proceedings of the 17th International Conference on Medical Image Computing and Computer-Assisted Intervention. Boston: Springer, 2014. 305–312.]]>
et al. Generative adversarial nets. Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal: MIT Press, 2014. 2672–2680.]]>
Kazeminia S, Baur C, Kuijper A,
et al. Synthetic data augmentation using GAN for improved liver lesion classification. 2018 IEEE 15th International Symposium on Biomedical Imaging (ISBI 2018). Washington: IEEE, 2018. 289–293.]]>
et al. Learning implicit brain MRI manifolds with deep learning. Proceedings of SPIE 10574 Medical Imaging 2018: Image Processing. Houston: SPIE, 2018. 1–12.]]>
et al. Image-to-image translation with conditional adversarial networks. Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017. 5967–5976.]]>
Dar SUH, Yurt M, Karacan L,
Yu BT, Zhou LP, Wang L,
et al. High-resolution image synthesis and semantic manipulation with conditional GANs. Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018. 8798–8807.]]>
et al. Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the 2017 IEEE International Conference on Computer Vision. Venice: IEEE, 2017. 2242–2251.]]>
et al. Deep MR to CT synthesis using unpaired data. Proceedings of the 2nd International Workshop on Simulation and Synthesis in Medical Imaging. Québec City: Springer, 2017. 14–23.]]>
et al. Adversarial image synthesis for unpaired multi-modal cardiac data. Proceedings of the 2nd International Workshop on Simulation and Synthesis in Medical Imaging. Québec City: Springer, 2017. 3–13.]]>
et al. Tumor-aware, adversarial domain adaptation from CT to MRI for lung cancer segmentation. Proceedings of the 21st International Conference on Medical Image Computing and Computer-Assisted Intervention. Granada: Springer, 2018. 777–785.]]>
et al. Dynamic filter networks. Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona: Curran Associates Inc. , 2016. 667–675.]]>
et al. CondConv: Conditionally parameterized convolutions for efficient inference. Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems 2019. Vancouver: NeurIPS, 2019. 1305–1316.]]>
et al. Dynamic convolution: Attention over convolution kernels. Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020. 11027–11036.]]>
et al. DyNet: Dynamic convolution for accelerating convolutional neural networks. arXiv: 2004.10694, 2020.]]>
et al. WeightNet: Revisiting the design space of weight networks. Proceedings of the 16th European Conference on Computer Vision. Glasgow: Springer, 2020. 776–792.]]>
Wang H, Deng C, Ma F,
et al. Hierarchical dynamic filtering network for RGB-D salient object detection. Proceedings of the 16th European Conference on Computer Vision. Glasgow: Springer, 2020. 235–252.]]>
et al. Pay less attention with lightweight and dynamic convolutions. Proceedings of the 7th International Conference on Learning Representations. New Orleans: ICLR, 2019. 1–14.]]>
et al. StarGAN: Unified generative adversarial networks for multi-domain image-to-image translation. Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018. 8789–8797.]]>
et al. Least squares generative adversarial networks. Proceedings of the 2017 IEEE International Conference on Computer Vision. Venice: IEEE, 2017. 2813–2821.]]>
et al. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago: IEEE, 2015. 1026–1034.]]>