摘要:视觉惯性里程计(visual-inertial odometry, VIO)通过融合视觉和惯性数据来实现位姿估计. 在复杂环境中, 惯性数据受噪声干扰, 长时间运动会导致累积误差, 同时大多数VIO忽略了模态间局部信息交互, 未充分利用不同模态的互补性, 从而影响位姿估计精度. 针对上述问题, 本文提出了一种基于注意力机制与局部交互的视觉惯性里程计(attention and local interaction-based visual-inertial odometry, ALVIO)模型. 首先, 该模型分别提取到视觉特征和惯性特征. 其次, 保留惯性特征的历史时序信息, 并通过基于离散余弦变换 (discrete cosine transform, DCT)的通道注意力机制增强低频有效特征, 抑制高频噪声. 接着, 设计了多模态局部交互与全局融合模块, 利用改进的分散注意力机制与MLP-Mixer逐步实现模态间的局部交互与全局融合, 根据不同模态的贡献调节局部特征权重, 实现模态间互补, 再在全局维度上整合特征, 得到统一表征. 最后, 将融合的特征进行时间建模和位姿回归得到相对位姿. 为了验证模型在复杂环境下的有效性, 对公开数据集KITTI和EuRoC进行了低质量处理并实验, 实验表明, ALVIO相较于直接特征拼接模型、多头注意力融合模型、软掩码融合模型, 平移误差分别减少了49.92%、32.82%、37.74%, 旋转误差分别减少了51.34%、25.96%、29.54%, 且具有更高的效率和鲁棒性.