基于多层级上下文投票的三维密集字幕
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

山东省自然科学基金(ZR2020MF136)


3D Dense Captioning Method Based on Multi-level Context Voting
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 增强出版
  • |
  • 文章评论
    摘要:

    传统的三维密集字幕方法存在未充分考虑上下文信息、点云特征信息丢失以及隐藏状态信息量单一等问题. 为了应对这些挑战, 提出了多层级上下文投票网络, 该网络在投票过程中使用自注意力机制捕获点云的上下文信息并加以多层级利用, 提升检测对象的准确率. 同时, 还设计了隐藏状态-注意力时序融合模块, 将当前时刻隐藏状态融合与前一时刻注意力结果融合, 丰富隐藏状态信息量, 从而提高模型表达能力. 除此之外, 采用“两阶段”训练方法, 有效过滤掉生成的低质量对象提案, 增强描述效果. 在官方数据集ScanNet和ScanRefer上的大量实验表明, 该方法与基线方法相比取得了更有竞争力的结果.

    Abstract:

    Traditional three-dimensional (3D) dense captioning methods have problems such as insufficient consideration of point-cloud context information, loss of feature information, and thin hidden state information. Therefore, a multi-level context voting network is proposed. It uses the self-attention mechanism to capture the context information of point clouds in the voting process and utilizes it at multiple levels to improve the accuracy of object detection. Meanwhile, the temporal fusion of hidden state and attention module is designed to fuse the hidden state of the current moment with the attention result of the previous moment to enrich the information of the hidden state and thus improve the expressiveness of the model. In addition, a “two-stage” training method is adopted in the model, which can effectively filter out the generated low-quality object proposals and enhance the description effect. Extensive experiments on official datasets ScanNet and ScanRefer show that this method achieves more competitive results compared to baseline methods.

    参考文献
    相似文献
    引证文献
引用本文

吴春雷,郝宇钦,李阳.基于多层级上下文投票的三维密集字幕.计算机系统应用,2023,32(3):291-299

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2022-08-03
  • 最后修改日期:2022-09-07
  • 录用日期:
  • 在线发布日期: 2022-12-09
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号