结合多尺度特征和细节感知策略的遥感图像场景分类模型
CSTR:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

国家自然科学基金(42471475); 地质探测与评估教育部重点实验室主任基金(GLAB2024ZR06)


Remote Sensing Image Scene Classification Model Combining Multi-scale Feature and Detail-aware Strategy
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    针对遥感图像场景分类中存在的场景尺度多变性、类内多样性和类间相似性, 以及有标签训练样本稀缺的问题, 本文提出了一种结合多尺度特征和细节感知策略的Vision Transformer (ViT)模型用于遥感图像场景分类. 该模型通过引入空洞空间金字塔池化模块, 有效捕捉并融合了遥感图像中的多尺度特征, 同时增强了对局部特征信息的利用, 从而进一步提升了特征判别能力. 另外, 采用创新的细节感知掩码策略, 使得模型能够有效利用无标签遥感图像数据, 促进模型学习到更为精细的特征表示, 以实现更高效、更准确的遥感图像场景分类. 在实验部分, 本文首先在大规模无标签遥感图像数据集上进行预训练, 随后将预训练模型迁移至下游场景分类任务中进行微调. 在多个公开遥感图像数据集上的实验结果表明, 所提模型在自监督预训练阶段能够有效提取图像特征, 并在下游场景分类任务中实现较高的准确率, 展现出良好的鲁棒性和有效性.

    Abstract:

    In response to the challenges of scene scale variability, intra-class diversity, and inter-class similarity in remote sensing image scene classification, a Vision Transformer (ViT) model that integrates multi-scale features with detail perception strategies is proposed for remote sensing image classification. The model effectively captures and fuses multi-scale features from remote sensing images by incorporating a dilated spatial pyramid pooling module, while enhancing the utilization of local feature information, thus improving feature discrimination capabilities. Furthermore, an innovative detail perception masking strategy enables the model to leverage unlabeled remote sensing image data effectively, facilitating the learning of more refined feature representations for more efficient and accurate scene classification. In the experimental section, the model is first pre-trained on a large-scale unlabeled remote sensing image dataset, followed by the fine-tuning of the pre-trained model on downstream scene classification tasks. Experimental results across multiple public remote sensing image datasets demonstrate that the proposed model can effectively extract image features during the self-supervised pre-training phase and achieve high accuracy in downstream scene classification tasks, showcasing robust performance and efficacy.

    参考文献
    相似文献
    引证文献
引用本文

马惠,霍然.结合多尺度特征和细节感知策略的遥感图像场景分类模型.计算机系统应用,,():1-12

复制
相关视频

分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2024-12-22
  • 最后修改日期:2025-01-15
  • 录用日期:
  • 在线发布日期: 2025-05-12
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号