摘要:视觉导航旨在通过环境中的视觉信息提供导航依据, 其中关键任务之一就是目标检测. 传统的目标检测方法需要大量的标注, 且只关注图像本身, 并未充分利用视觉导航任务中的数据相似性. 针对以上问题, 本文提出一种基于历史图像信息的自监督训练任务. 该方法聚合同一位置的多时刻图像, 通过信息熵区分前景与背景, 将图像增强后传入SimSiam自监督范式进行训练. 并改进SimSiam投影层和预测层中的MLP为卷积注意力模块和卷积模块, 改进损失函数为多维向量间损失, 以提取图像中的多维特征. 最后, 将自监督预训练所得模型用于下游任务的训练. 实验表明, 在处理后的nuScenes数据集上, 本文提出的方法有效提高了下游分类及检测任务的精度, 在下游分类任务上Top5准确率达到66.95%, 检测任务上mAP达到40.02%.