摘要:为了解决图像采集过程中眼图消失和头部姿态估计不准确的问题, 利用基于非接触式的眼部信息获取方法采集人脸图像, 从单个图像帧中确定飞行员当前的注视方向. 同时, 针对现有网络忽略头部运动对视线造成遮挡所导致的分类效果不佳问题, 结合人脸图像与头部姿态特征, 通过改进的MobileViT模型提出一种用于飞行员注视区域分类的多模态数据融合网络. 首先提出了多模态数据融合模块解决特征拼接过程中尺寸不平衡导致的过拟合问题, 其次提出一种基于并行分支SE机制的逆残差块, 充分利用网络浅层的空间和通道特征信息, 并结合Transformer的全局注意力机制捕捉多尺度特征. 最后, 重新设计了Mobile Block结构, 使用深度可分离卷积降低模型复杂度. 利用自制数据集FlyGaze对新模型和主流基线模型进行对比, 实验结果表明, PilotT模型对注视区域0、3、4、5的分类准确率均在92%以上, 且对人脸发生偏转的情况具有较强适应力. 研究结果对提升飞行训练质量以及飞行员意图识别和疲劳评估具有实际应用价值.