摘要:当前, 大部分的学生课堂行为识别工作主要基于单帧图像进行, 忽略了行为的连贯性, 因此不能充分利用视频信息来对学生的课堂行为进行准确刻画. 所以, 本文提出一种改进的YOWO算法模型, 有效利用视频信息对学生课堂行为进行识别. 首先, 本文采集某高校真实课堂教学中的授课录像, 制作出包含5类学生课堂行为的AVA格式视频数据集; 其次, 采用时移模块TSM (temporal shift module), 用来增强模型获取时间上下文信息的能力; 最后, 采用非局部操作模块non-local来提高模型提取关键位置信息的能力. 实验结果表明, 通过对YOWO模型的优化, 使得网络的识别性能更佳. 在学生课堂行为数据集上, 改进后的算法的mAP值为95.7%, 相较于原YOWO算法在mAP值上提高了4.6%; 模型参数量为81.97×106, 计算量为22.6 GFLOPs, 参数量和计算量分别降低32.3%和9.6%; 检测速度为24.03 f/s, 提升了约3 f/s.