摘要:视音频事件定位(audio-visual event localization, AVEL)任务通过观察音频信息和相对应的视觉信息来定位视频中的事件. 本文针对AVEL任务设计了一种跨模态时间对齐网络CMTAN, 该网络包含预处理、跨模态交互、时间对齐和特征融合这4个部分. 具体而言, 在预处理部分, 通过一种新的跨模态音频指导模块和一种噪音弱化模块的处理, 模态信息中的背景和噪音被减少. 随后, 在跨模态交互部分, 使用基于多头注意力机制的信息强化和信息补充模块进行跨模态交互, 单模态信息得到全局信息优化. 在时间对齐部分, 本文设计了一种聚焦于跨模态交互前后单模态全局信息的时间对齐模块, 用于执行模态信息的特征对齐. 最后, 在特征融合过程中, 通过一种多阶段融合模块, 两种模态信息被从浅入深地融合, 且融合后的模态信息最终将被用于事件定位. 大量实验表明CMTAN在弱监督和全监督AVEL任务中都具有优秀的性能.