摘要:针对遥感图像场景分类中存在的场景尺度多变性、类内多样性和类间相似性, 以及有标签训练样本稀缺的问题, 本文提出了一种结合多尺度特征和细节感知策略的Vision Transformer (ViT)模型用于遥感图像场景分类. 该模型通过引入空洞空间金字塔池化模块, 有效捕捉并融合了遥感图像中的多尺度特征, 同时增强了对局部特征信息的利用, 从而进一步提升了特征判别能力. 另外, 采用创新的细节感知掩码策略, 使得模型能够有效利用无标签遥感图像数据, 促进模型学习到更为精细的特征表示, 以实现更高效、更准确的遥感图像场景分类. 在实验部分, 本文首先在大规模无标签遥感图像数据集上进行预训练, 随后将预训练模型迁移至下游场景分类任务中进行微调. 在多个公开遥感图像数据集上的实验结果表明, 所提模型在自监督预训练阶段能够有效提取图像特征, 并在下游场景分类任务中实现较高的准确率, 展现出良好的鲁棒性和有效性.