基于以物体为中心扩散的组成式场景建模
CSTR:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

上海市科学技术委员会(22511105000); 上海市类脑芯片与片上智能系统研发与转化功能型平台(17DZ2260900)


Compositional Scene Modeling with Object-centric Diffusion
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    以物体为中心的学习方法旨在以组成式的方式对场景进行解析与建模, 并提取场景中物体的表示. 早期以物体为中心的学习方法通常使用简单的像素混合解码器来建模场景. 然而, 这些方法在处理复杂的合成数据集和真实世界数据集时通常表现不佳. 相比之下, 最近的一些以物体为中心的学习方法已经开始尝试使用结构更为复杂的解码器(例如自回归Transformer和扩散模型) 来更有效地提取物体表示并建模场景. 尽管这些近期的方法相比于早期的方法具有更好的效果, 但这些方法采用的非组成式建模方法与人类的直觉相悖, 且它们无法根据物体的表示生成对应的物体图像. 为了解决这个问题, 本文提出了以物体为中心的扩散模型(object-centric diffusion model, OCD), OCD使用一种改进的扩散模型作为解码器, 在重构场景的过程中分别生成物体的外观和掩码, 从而在保证模型效果的同时实现图像的组成式建模. 大量的实验证明, OCD在多种数据集(包括两个合成数据集和两个真实世界数据集) 上的图像分割和生成任务中表现出色, 证明了其普适性和有效性.

    Abstract:

    Object-centric learning methods aim to parse and model scenes in a compositional way while extracting representations of objects within those scenes. Early object-centric approaches typically employ simple pixel-mixing decoders for scene modeling. However, these methods often perform poorly when handling complex synthetic datasets and real-world datasets. In contrast, recent object-centric learning methods have begun experimenting with more complex decoders, such as autoregressive Transformers and diffusion models, to extract object representations and model scenes more effectively. Despite the improved performance of these newer methods over earlier ones, their non-compositional modeling approaches contradict human intuition and fail to generate corresponding object images given object representations. To address this issue, the proposed object-centric diffusion (OCD) model employs an improved diffusion model as a decoder. OCD generates the appearance and masks of objects separately during the scene reconstruction process, achieving true compositional modeling while maintaining model performance. Extensive experiments demonstrate that OCD excels in image segmentation and generation tasks across various datasets, including two synthetic and two real-world datasets, proving its versatility and effectiveness.

    参考文献
    相似文献
    引证文献
引用本文

沈知萌,黄尹璇.基于以物体为中心扩散的组成式场景建模.计算机系统应用,,():1-13

复制
相关视频

分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2024-12-23
  • 最后修改日期:2025-02-12
  • 录用日期:
  • 在线发布日期: 2025-06-13
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号