摘要:
单目深度估计(monocular depth estimation, MDE)是计算机视觉中的核心任务之一, 在空间理解、三维重建、自动驾驶等领域扮演着重要角色. 基于深度学习的单目深度估计方法能够从单张图像中预测物体的相对深度, 但由于缺乏度量尺度信息, 常面临尺度不一致的问题, 限制了其在视觉SLAM、三维重建和新视角合成等下游任务中的应用效果. 为此, 单目度量深度估计(monocular metric depth estimation, MMDE)应运而生, 通过对场景尺度的精确推断, 解决了深度预测中的一致性难题, 不仅显著提升了在时序任务中的深度估计稳定性, 还简化了下游任务的适配, 进一步拓展了实际应用场景. 本文系统回顾了深度估计技术的发展历程, 从传统几何方法到深度学习方法的转向, 全面梳理了该领域的技术演进及其关键突破. 在此基础上, 重点讨论了尺度不可知(scale-agnostic)方法在零样本(zero-shot)泛化中的贡献, 分析其如何为MMDE的进一步发展奠定基础. 文章还深入探讨了零样本MMDE的最新研究进展, 聚焦当前的核心挑战, 包括模型的泛化能力、边缘细节丢失等问题. 针对这些问题, 研究社区通过无标数据扩充、图像分块、模型结构优化和生成式方法等创新途径, 取得了一定进展. 本文详细剖析了这些方向的最新成果及其解决思路, 揭示了当前研究的前沿路线与技术局限. 最后, 总结了零样本MMDE领域内最新研究成果之间的内在联系, 梳理了尚待解决的关键问题, 并展望了未来研究方向. 通过对领域现状与发展趋势的全面分析, 旨在为研究者提供清晰的技术脉络和前沿洞察, 助力研究者更快掌握MMDE的研究现状, 为推动更广泛的应用和技术创新提供启示.