摘要:多人多目3D人体姿态估计任务旨在从多目视图中预测多个人体关键点的位置, 是计算机视觉中的基本问题. 深度的缺失和3D计算的巨大成本, 导致从RGB图像中估计多人的姿态变得复杂且不准确, 为此研究人员提出了多种有效的解决方法. 其中, 基于体素表示的方法利用相机参数从多目视图中获取3D体素特征, 但因为体素的离散设计, 不可避免地带来量化误差. 针对这一问题, 本文提出了基于神经辐射场(neural radiance field, NeRF)的多人多目3D人体姿态估计方法PoseNeRF, 该方法首次以双分支联合训练的方式, 将NeRF结构以端到端可微的形式嵌入到多人多目3D人体姿态估计中. PoseNeRF包含NeRF分支、Pose分支及共享参数机制. 具体而言, NeRF分支利用多目图像的增强特征训练NeRF分支网络, 使其中的几何多层感知机(geometric multi-layer perceptron, G-MLP)能够表示具体位置的不透明度; Pose分支从3D体素特征中预测出人体中心位置和关键点位置; 共享参数机制利用NeRF分支共享的G-MLP提供不透明度, 优化3D体素特征. 为了验证方法的有效性, 本文在CMU Panoptic、Campus、Shelf数据集上进行了大量实验. 结果表明, 本方法在CMU Panoptic数据集上, AP25指标相较VoxelPose和Faster VoxelPose有明显提升, 分别为2.1%和6.0%; 在MPJPE中误差为1.4 mm, 小于Faster VoxelPose; 在Campus数据集、Shelf数据集上也相较VoxelPose有一定提升.