摘要:传统的三维密集字幕方法存在未充分考虑上下文信息、点云特征信息丢失以及隐藏状态信息量单一等问题. 为了应对这些挑战, 提出了多层级上下文投票网络, 该网络在投票过程中使用自注意力机制捕获点云的上下文信息并加以多层级利用, 提升检测对象的准确率. 同时, 还设计了隐藏状态-注意力时序融合模块, 将当前时刻隐藏状态融合与前一时刻注意力结果融合, 丰富隐藏状态信息量, 从而提高模型表达能力. 除此之外, 采用“两阶段”训练方法, 有效过滤掉生成的低质量对象提案, 增强描述效果. 在官方数据集ScanNet和ScanRefer上的大量实验表明, 该方法与基线方法相比取得了更有竞争力的结果.