面向海洋生物的多模态零样本语义分割
CSTR:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

国家自然科学基金(61971142)


Multimodal Zero-shot Semantic Segmentation for Marine Organisms
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    海洋生物图像分割是智能化海洋监测的重要基础, 但在实际应用中仍面临跨模态语义偏差、多尺度融合效率低以及生物结构建模不足等挑战. 为此, 本文提出一种基于CLIP的多模态语义分割框架Mseg, 能够在未见类别上实现有效分割. 该方法融合视觉图像与生物类别文本特征, 同时利用轻量级交叉注意力 (LCA)机制和多层级图像特征融合策略引导图像与文本特征的交互, 从而生成语义增强的图像表征. 随后, 引入BalanceITV模块对两路特征进行动态加权融合, 实现主干融合视觉特征与语言引导特征的自适应平衡. 最后, 本文设计了基于海洋生物形态感知的不确定性建模方法, 在边界区域及复杂生物结构处提升了分割的精细度与鲁棒性. 实验结果表明, Mseg在多个海洋生物零样本分割任务中均优于现有方法, 验证了其在复杂水下场景中的适应性与有效性.

    Abstract:

    Image segmentation of marine organisms is fundamental to intelligent ocean monitoring but remains challenging due to issues such as cross-modal semantic deviation, inefficient multi-scale fusion, and insufficient modeling of biological structures. To address these challenges, this study proposes Mseg, a CLIP-based multimodal semantic segmentation framework, to achieve effective segmentation of unseen categories. The method integrates visual image features with textual category descriptions, while employing a lightweight cross-attention (LCA) mechanism and a multi-level feature fusion strategy to guide the interaction between visual and textual representations, thereby generating semantically enriched image representations. Subsequently, a BalanceITV module is introduced to dynamically weight and adaptively balance the two streams of features, namely, the backbone visual features and the language-guided features. Moreover, an uncertainty modeling method on marine organism morphology perception is designed to enhance segmentation precision and robustness, particularly in boundary regions and areas with complex biological structures. Experiments on multiple marine organism datasets show that Mseg consistently outperforms existing methods in zero-shot segmentation tasks, demonstrating its strong adaptability and effectiveness in complex underwater environments.

    参考文献
    相似文献
    引证文献
引用本文

周德龙,张宁,程远志.面向海洋生物的多模态零样本语义分割.计算机系统应用,,():1-9

复制
分享
相关视频

文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2025-09-23
  • 最后修改日期:2025-10-14
  • 录用日期:
  • 在线发布日期: 2026-03-09
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62661041 传真: Email:csa@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号