摘要:由于细粒度图像类间差异小, 类内差异大的特点, 因此细粒度图像分类任务关键在于寻找类别间细微差异. 最近, 基于Vision Transformer的网络大多侧重挖掘图像最显著判别区域特征. 这存在两个问题: 首先, 网络忽略从其他判别区域挖掘分类线索, 容易混淆相似类别; 其次, 忽略了图像的结构关系, 导致提取的类别特征不准确. 为解决上述问题, 本文提出动态自适应调制和结构关系学习两个模块, 通过动态自适应调制模块迫使网络寻找多个判别区域, 再利用结构关系学习模块构建判别区域间结构关系; 最后利用图卷积网络融合语义信息和结构信息得出预测分类结果. 所提出的方法在CUB-200-2011数据集和NA-Birds数据集上测试准确率分别达到92.9%和93.0%, 优于现有最先进网络.