Human Action Recognition Based on Visual Attention
KONG Yan, LIANG Hong, ZHANG Qian
College of Computer & Communication Engineering,, China University of Petroleum, Qingdao 266580, China
Foundation item: Special Fund for Innovation Method by Ministry of Science and Technology of the People’s Republic of China (2015IM010300)
Abstract: Recognition of human actions in videos is an important research field in computer vision in recent years. However, existing methods have insufficient representation of video and cannot focus on significant areas within the image. We propose a deep convolutional neural network based on visual attention, which can effectively add a weight to the video representation features, pay attention to the beneficial regions in the features, and achieve more accurate behavior recognition. We conducted experiments on HMDB51 and our own Oilfield-7 dataset to verify the validity of the model proposed for human actions on the oilfield. The experimental results show that the proposed method has certain advantages compared with the two-stream architectures which have achieved excellent performance.
Key words: action recognition     two-stream architecture     Convolutional Neural Network (CNN)     video representation     visual attention

1 引言

2 相关工作

3 视觉注意力深度卷积网络

3.1 时态段网络

 $\begin{split} &TSN({T_1},{T_2}, \cdots ,{T_k}) =\\ &H(G(F({T_1};W), F({T_2};W), \cdots ,F({T_k};W)))\end{split}$ (1)

 $L(y,G) = - \sum\limits_{i = 1}^C {{y_i}} ({G_i} - \log\sum\limits_{j = 1}^C {\exp } {G_j})$ (2)

3.2 模型架构

AttConv-net分别对双流中的空间网和时态网所提取的特征分配较大的权重, 使其容易地定位到感兴趣地区域, 从而可以更准确进行分类. 该结构如图1所示, 采用双流模型基础架构, 分为空间流网络和时态流网络. 本文的AttConv-net是在TSN的基础上进行了修改, 将注意力模型分别连接到空间网和时态网的最后一个卷积层所提取出的特征上, 之后将分配了权重的特征送入全连接层以及Softmax进行双流网络各自的类别概率的预测, 并且在评判最终视频所属类别之前会将空间流和时态流的网络结果进行合并. 给定一个完整视频V, 将其处理成一系列的片段 ${S_i}\left( {i = 1,2,\cdots k} \right)$ , $k$ 是一整个视频均等分的数量, 每个片段包含一帧RGB图和两帧光流图. 卷积神经网络CNNs分别提取RGB图的全局视觉特征 ${F_{\rm{RGB}}} = \left( {{F_1},{F_2},}\right.$ $\left.{{F_3},\cdots,{F_L}} \right)$ 和光流图的全局视觉特征 ${F_{\rm{OF}}} = \left( {{F_1},{F_2},{F_3},}\right.$ $\left.{\cdots,{F_L}} \right), L$ 表示每张图像划分为了L块区域, 每个区域都是一个 $m$ 维的向量. 融入注意力机制处理后得到特征 ${F_{att{\rm{RGB}}}}$ ${F_{att{\rm{OF}}}}$ , 之后便会得到每个片段 ${S_i}$ 的双流网络中的所属类别得分 ${C_{Si}}$ ${C_{Ti}}$ , 经过共识函数 $G\left( {} \right)$ 后将双流结果送入Softmax函数算概率, 进而得到一个完整视频的分类结果 $W$ . 其中的工作流程可以概括为下列共识:

 ${F_{att{\rm{RGB}}}} = f\left( {{F_{\rm{RGB}}}} \right)$ (3)
 ${F_{att{\rm{OF}}}} = f\left( {{F_{\rm{OF}}}} \right)$ (4)
 ${g_S} = G\left( {\sum\limits_{i = 1}^k {{C_{Si}}} } \right)$ (5)
 ${g_T} = G\left( {\sum\limits_{i = 1}^k {{C_{Ti}}} } \right)$ (6)
 $W ={ \rm{Softmax}}\left( {{g_S},{g_T}} \right)$ (7)

 图 1 AttConv-net模型结构图

3.3 视觉注意力模型

AttConv-net中的注意力模型将从最后一个卷积层输出的特征向量附加一个介于0和1之间的权重, 以此聚焦于图像中的显著区域, 该模型结构如图2所示, 将视频片段输入到网络中, 空间流和时态流分别进行各自的卷积, 图中的虚框部分表示空间流和时态流进行相同的Attention处理, 输出的分数是两流网络的单独得分. 卷积神经网络提取的空间流特征 $F_{\rm{RGB}}^t$ 和时态流特征 $F_{\rm{OF}}^t$ 都是一个 $L \times m$ 维的向量, 即图像有 $L$ 个区域, 每个区域用 $m$ 维的特征向量表示:

 $F_{\rm{RGB/OF}}^t = \left\{ {F_1^t,F_2^t,F_3^t,\cdots, F_L^t} \right\},{F_i} \in {R^m},t = \left( {1,2,\cdots, k} \right)$ (8)

 $\alpha _i^t = {O_{att}}\left( {F_{\rm{RGB/OF}}^t} \right)$ (9)

 $\alpha _n^t = \frac{{\exp \left( {\alpha _i^t} \right)}}{{\sum\limits_{n = 1}^L {\exp \left( {\alpha _n^t} \right)} }}$ (10)

 ${F_{att{\rm{RGB/OF}}}} = \sum\limits_{n = 1}^L {\alpha _n^t{F_{\rm{RGB/OF}}}}$ (11)

AttConv-net之后将 ${F_{att{\rm{RGB/OF}}}}$ 送入全连接层. 融入注意力机制的网络仍然是可以通过标准的反向传播来优化学习.

 图 2 AttConv-net网络结构图

4 实验

4.1 油田人员行为数据集

4.2 实验细节

4.3 结果与分析

5 结论与展望

 图 3 Oilfield-7数据集部分行为注意力变化的可视化图像

