摘要:以物体为中心的学习方法旨在以组成式的方式对场景进行解析与建模, 并提取场景中物体的表示. 早期以物体为中心的学习方法通常使用简单的像素混合解码器来建模场景. 然而, 这些方法在处理复杂的合成数据集和真实世界数据集时通常表现不佳. 相比之下, 最近的一些以物体为中心的学习方法已经开始尝试使用结构更为复杂的解码器(例如自回归Transformer和扩散模型) 来更有效地提取物体表示并建模场景. 尽管这些近期的方法相比于早期的方法具有更好的效果, 但这些方法采用的非组成式建模方法与人类的直觉相悖, 且它们无法根据物体的表示生成对应的物体图像. 为了解决这个问题, 本文提出了以物体为中心的扩散模型(object-centric diffusion model, OCD), OCD使用一种改进的扩散模型作为解码器, 在重构场景的过程中分别生成物体的外观和掩码, 从而在保证模型效果的同时实现图像的组成式建模. 大量的实验证明, OCD在多种数据集(包括两个合成数据集和两个真实世界数据集) 上的图像分割和生成任务中表现出色, 证明了其普适性和有效性.