近些年来, 在人们聚集的地方, 影响公共安全的事件频繁发生, 对于人群行为分析和预测的需求也随之上升, 因为如果能在危险事件发生之前识别出人群中异常的行为, 并提前采取防治措施, 就能防止可能的人群相关的灾难, 保护人民的生命财产安全.
目前人群行为识别工作主要分为人群异常行为检测和人群行为分类两种, 对于人群的异常行为检测, 大多数研究工作都集中在人群特定场景的异常行为检测[1, 2], 但是它们对于异常行为缺乏一个恰当的定义[3], 会导致很多正常行为被误检为异常行为. 而人群行为分类通过考虑人群行为中几类特定行为的特征将他们区分开, 对于跨场景人群行为研究具有较高的价值, 因此可以将人群行为分类作为首选. 另外, 目前大多数人群行为识别工作都基于人群的单类型特征完成的, 例如很多人群行为识别工作都是基于人群的物理运动特征来进行的, 比如说梯度直方图(HOG)[4, 5]、光流直方图(HOF)[6]和运动边界直方图(MBH)[4]等, 但是这些特征都无法区分语义级别的差异[7]. 随着深度学习的发展, 人们通过深度学习网络提取出人群特征的高级表示来完成人群行为识别任务, 例如Varghese等人通过神经网络提取出人群的情绪特征来识别人群行为[8]. 但是综合来看上述这些研究方法都是考虑人群的单类型特征或者部分特征对于人群行为的影响进而完成人群行为识别任务, 但是人群行为本质上是多种因素共同决定而产生的结果[9], 除了人群的物理运动特征和人群的情绪特征之外, 人群行为还会受到人群的社交特征等因素的影响. 因此, 本文将综合考虑人群运动特征、社交特征、情绪人格特征以及文化特征, 并根据这些特征之间的联系构建得到一个人群的多特征关系模型. 另外, 考虑到人群行为的时间序列依赖性, 模型将采用两个并行的网络层来融合人群多特征相关性和人群行为时间序列依赖性对于人群行为的影响来完成人群行为识别任务. 为了提高模型的可解释性, 网络层结构采用的是一种融合GNN与SCM的因果图网络(CGN)模型, 该网络融合了GNN的结构化模型的近似能力与SCM的因果机制表述能力. 总结来说, 主要贡献有:
(1) 综合考虑影响人群行为的多类特征, 提出一种用于表述人群特征对于人群行为的影响以及人群特征之间相关性的人群多特征关系模型.
(2) 采用一种双重并行网络模型, 融合人群行为识别中人群多特征对于人群行为的影响以及人群行为时间序列依赖性对于人群行为的影响.
(3) 模型中网络层采用因果图网络, 该网络兼具图神经网络的推理能力以及结构因果模型的因果机制表述能力.
1 多特征关系模型由于人群运动是人群行为最直观的展现, 因此很多研究者的基于人群的物理运动特征来研究人群行为, Colque 等人[10]基于人群的物理运动特征来检测人群中的异常行为. 但是除此之外, 还有很多其他类型的特征会对人群行为产生影响. 情绪作为一种复杂的心理状态, 是一种直接而强烈的行为动机[11], 可以影响人的行为和思想, Challenger等人[10]研究指出情绪在决定人群行为方面发挥重要作用, 同时, 人格特征能够反映出人群根据事件采取行动的行为模式, 因此在人群行为识别工作上, 人群情绪人格是一类不可忽略的特征. 此外Forsyth[12]指出每个特定文化中的人群都会表现出独特的人际交往过程, 文化差异会导致人群速度和密度等物理特征的变化[13], 同时, 文化还影响着人群之间的交流方式, 在人群行为的形成过程中发挥重要作用[14]. Hofstede提出描述人群文化特征的6维度文化模型[15], 并且研究中发现文化维度模型与人格特征具有显著联系[16]. 最后, 人群中个体与周围个体之间的社会关系会造成人群中个体之间的物理位置, 距离以及速度上的差异, 进而影响人群的行为, 因此在人群行为识别问题上, 考虑人群的社交特征是有益的. 以上特征都会对人群行为产生影响并且各特征之间具有一定的相关性, 因此, 本文将人群的物理运动特征、社交特征、情绪人格特征以及背景文化结合, 得到人群的多特征关系模型, 如图1所示. 下面将具体介绍上述4类特征.
1.1 物理特征对于物理特征, 本文主要考虑人群的运动熵、速度方差、运动混乱指数和人群密度. 人群运动熵可以用来描述人群系统的物理状态, 速度方差可以用来描述人群运动速度大小的一致性, 人群运动混乱指数可以用来描述人群运动方向的一致性, 人群密度可以用来描述人群的空间分布情况. 为获取这些特征值, 本文采用deep-sort算法[17]提取出视频画面中每个个体
1.2 社交特征
对于社会特征, 本文主要考虑人群中, 行人的集体化水平、孤立化水平以及社会化水平. 对于人群的社交特征, 无法避免的需要考虑人群中的小团体. 人群之间的小团体可以基于个体之间的距离, 速度以及方向来识别. Hall 提出近因学术语用来描述人群中个体交互时周围个人空间使用情况, 并且证明个体之间的社会距离与物理距离有关[19], 他将人之间的人际距离划分为4个区域: 亲密距离、个人距离、社会距离和公共距离. Favaretto基于Hall的理论, 提出判定人群中两个个体是否属于同一小团体的三要素[20]:
通过这3个要素判断两个个体是否属于同一小团体, 可以将人群划分成很多个二元组或者独立个体组, 再将有交集的组合并就可以将群体划分成很多个小团体. 在获取到人群中的小团体数据之后, 进一步计算小团体数量
$ {\bar d_g} = 2 \times \frac{{\displaystyle\mathop \sum \nolimits_{i = 0}^{n - 1} \displaystyle\mathop \sum \nolimits_{j = 0}^{n - 1} d\left( {{{\vec x}_i}, {{\vec x}_j}} \right)}}{{n\left( {n - 1} \right)}} $ | (1) |
$ {\bar s_g} = 2 \times \frac{{\displaystyle\mathop \sum \nolimits_{i = 0}^{n - 1} \displaystyle\mathop \sum \nolimits_{j = 0}^{n - 1} s\left( {{s_i}, {s_j}} \right)}}{{n\left( {n - 1} \right)}} $ | (2) |
$ {\bar \alpha _g} = 2 \times \frac{{\displaystyle\mathop \sum \nolimits_{i = 0}^{n - 1} \displaystyle\mathop \sum \nolimits_{j = 0}^{n - 1} o\left( {{\alpha _i}, {\alpha _j}} \right)}}{{n\left( {n - 1} \right)}} $ | (3) |
下面主要讲述群体凝聚力和群体社会化程度.
1.2.1 群体凝聚力凝聚力
$ \begin{array}{*{20}{c}} {{C_g} = \dfrac{1}{{{n_g}}}\displaystyle\mathop \sum \limits_{i = 1}^n C{O_i} + C{V_i} + C{P_i}} \end{array} $ | (4) |
$ C{O_i} = \frac{{w - \left| {{{\bar \alpha _g}} - {\alpha _i}} \right|}}{w} $ | (5) |
$ C{V_i} = \frac{{\gamma - \left| { {{\bar s_g}} - {v_i}} \right|}}{\gamma } $ | (6) |
$ \begin{array}{*{20}{c}} {C{P_i} = \log{n_g}} \end{array} $ | (7) |
其中,
群体社会化程度反映的是一个群体中个体之间的相似性, 社会化程度越高的群体, 个体之间的行为模式相似程度也会越高. 可以通过式(8)计算得到:
$ \begin{array}{c}\Psi =\dfrac{1}{{N}_{a}^{2}}{\displaystyle \sum }_{i=1}^{{N}_{a}}{\displaystyle \sum }_{j=1}^{{N}_{a}}{\rm e}^{\left(-\beta w{\left(i, j\right)}^{2}\right)}\end{array} $ | (8) |
其中,
情绪是人群行为的一种直接且强烈的动机, 对于人群行为模式具有十分重要的影响. Ortony等人[21]提出情绪的OCC模型, 将情绪分为22种不同类型, 从动作、事件和对象3个概念出发成功定义了情绪, 但是, 由于人类行为的不可预测性和不确定性, 通过情绪特征反映出人群行为, 需要进一步的研究. Mebrabian[22]提出一种心理状态模型: 愉悦-唤醒-支配(PAD)模型, 该模型通过愉悦、唤醒和支配3个维度来表征情绪, 这3个维度的值对于管理不同行为的情绪倾向上具有重要作用, 因此若是将情绪表征成PAD空间的值, 将使得人群行为识别任务更加简单. 实验使用的数据集MED对于视频中每帧画面都有相应的人群情绪标注, 标注将人群情绪分为生气、悲伤、兴奋、害怕、高兴以及中立6类, 因此本文直接使用数据集自带的标注的人群情绪数据, 并利用OCC模型与PAD模型之间的映射关系[23], 将人群情绪映射到PAD空间.
另外由于人格特征也会对人群的行为模式产生影响, 因此可以通过利用人格特征进一步细化前面得到的PAD值来将人格特征融入到PAD值. 具体的, 本文考虑刻画人格特征的OCEAN五因素模型[24], 该模型从5个维度描述人格特征: 开放性、责任性、外向型、亲和性以及神经质. 利用OCC模型与OCEAN模型之间的映射关系[23], 可以计算出5个维度的值
$ \begin{array}{*{20}{c}} {{P_{\rm final}} = P + {P_F}} \end{array} $ | (9) |
$ \begin{array}{*{20}{c}} {{A_{\rm final}} = A + {A_F}} \end{array} $ | (10) |
$ \begin{array}{*{20}{c}} {{D_{\rm final}} = D + {D_F}} \end{array} $ | (11) |
本文采用Hofstede文化维度模型[15]来描述人群的背景文化特征, 该模型通过权力距离指数(PDI)、个人主义与集体主义(IDV)、不确定性规避指数(UAI)、男性化社会与女性化社会(MAS)、长期导向与短期导向(LTO)和放纵与克制(IND) 6个维度来描述人群文化特征. 本文考虑其中除UAI之外的5个维度的指标特征. PDI维度指标表示的是社会地位的差异对于人群行为的影响, 人群中个体相互靠近的群体社会地位观念比较淡泊, 而群体中个体比较分散的群体社会地位观念比较强烈. 因此可以将PDI指标取值为群体中各个小团体的平均距离. IDV维度指标是与群体中人际空间与个人速度相关的指标, 可以通过人群中组成小团体和未组成小团体的人数百分比来衡量. LTO维度反映的是群体的长期目标导向程度, MAS维度指标反映的是群体的合作偏好, IND维度指标可以通过群体的平均速度和群体集体主义程度来衡量, 它们的计算方法如下:
$ LT{O}_{v}=\left\{ {\begin{array}{l}{O}_{v}\text{}\text{},\;{\rm if}\;{O}_{v}\geqslant 50\\ 100-{O}_{v}\text{},\;{\rm otherwise}\end{array}} \right. $ | (12) |
$ \begin{array}{*{20}{c}} {MA{S_v} = {\chi _1}G{C_v} + \left( {1 - {\chi _1}} \right)LT{O_v}} \end{array} $ | (13) |
$ \begin{array}{*{20}{c}} {IN{D_v} = {\rho _1}{S_v} + \left( {1 - {\rho _1}} \right)CO{L_v}} \end{array} $ | (14) |
其中,
本文提出一种融合多特征与时间序列的人群行为识别模型. 模型的整体框架如图2所示. 模型首先通过特征提取部分提取出第1节介绍的4类人群特征, 然后通过两个并行的因果图网络层融合多特征相关性以及时间序列依赖性对于人群行为的影响向量, 之后将这两个向量与多特征向量拼接耦合, 接着用GRU来捕捉时间序列中的序列模式, 最后采用一个全连接的神经网络作为识别网络来对人群行为进行识别分类. 下面主要详细介绍模型中两个并行的因果图网络层.
2.1 因果图网络因果关系一直以来都是人类认知的核心, 在人群行为识别任务中, 如果能发掘特征与人群行为之间的因果关系, 将对人群行为识别任务具有巨大的影响. 根据Pearl因果层次理论, 因果推理分为3个层次: 关联、干预和反事实推理, 传统的神经网络依靠数据之间的关联性完成任务, 只能覆盖第一层. 负责数据生成的结构因果模型(SCM)作为因果推理的核心模型, 其引入了因果层次理论的3个层次, 能够反映出图形节点之间的因果关系. 因此本文将图神经网络与结构因果模型结合, 得到一类网络, 称之为因果图网络(CGN). CGN按照如下方法构造.
对于任意一个SCM:
$ \begin{array}{*{20}{c}} {F = V \cup U = F'} \end{array} $ | (15) |
$ \begin{array}{*{20}{c}} {\varphi \left( {i, pa\left( i \right)} \right) = {U_i} + \sum \psi \left( {i, j} \right)} \end{array} $ | (16) |
$ \begin{array}{*{20}{c}} {\psi \left( {i, j} \right) = {f_{ij}}} \end{array} $ | (17) |
最后, 令:
$ \begin{gathered} {h_i} = \varphi \left( {{d_i}, { \oplus _{j \in N_i^G}}\psi \left( {{d_i}, {d_j}} \right)} \right) = {U_i} + \mathop \sum \limits_{j \in pa\left( i \right)} {f_{ij}}\left( {{V_j}} \right) = {f_i} \end{gathered} $ | (18) |
通过这样, 得到了一种特殊的GNN, 即CGN, 该网络兼具GNN的图计算能力和SCM的因果表示能力.
2.2 特征因果图网络该层网络主要是为了捕捉多个特征之间的相关性以及它们对于人群行为的影响, 因此这里将多特征时间序列看做一个完整的图, 图中的每个节点的表示一个特征, 节点的特征向量为对应特征的时间序列向量, 每条边反映的是特征之间的相关性. 具体来说, 图中每个节点
该层网络主要是为了捕捉特征在时间序列上的演变对于人群行为的影响, 因此该层网络将每个时间戳的特征向量作为一个图节点, 图中的边反映的是时间序列的相关性. 具体的对于图中的每个节点
3 实验 3.1 数据集与实验设置
实验采用motion emotion dataset (MED)数据集, 该数据集包含了31个视频, 共有大概44 000个视频剪辑, 视频中人群行为明显且对于每帧画面都有相应的人群行为标注. 正如该数据集中对于人群行为的划分, 本文将人群行为分为惊慌失措、打架、拥挤、异常物体和正常行为这5类.
在实验过程中, 首先对MED中的视频片段进行预处理筛选, 将不含有人群的片段删除, 预处理之后, 获取到有效的视频片段共39 166个. 在所有的训练过程中, 将所有有效数据按照8:1:1的比例分割成训练数据集, 验证数据集以及测试数据集, 另外, 实验中的时间窗口均设置为64, 初始学习率设置为0.000 6.
3.2 实验结果与分析实验对比模型包括基于模糊识别的认知深度预测模型(FCM-CDPM)[8]和基于3DCNN和SVM的人群行为识别模型(3DCNN-SVM)[25]. 对于模型的性能, 可以从模型收敛性, 识别准确率和Kappa系数来衡量. 此外, 实验中还对模型中两个并行的因果图网络层对于模型性能的影响进行了研究.
3.2.1 与其他方法的对比实验结果如表1所示. 从结果可以看到, 相对于其它方法, 本文模型在人群行为识别准确率上有很明显的提升. 但是在实验过程中, 各种类的人群行为数据集数量存在的明显的差异, 因此对于数据数量较多的行为类型, 该种类行为识别准确率会对模型整体识别准确率起到一个主导作用. 另外从各模型识别结果的Kappa系数可以看出本文模型在人群行为识别工作上的一致性性能相对其他方法也有较明显的提升. 图5给出了3个模型在训练过程中损失函数的收敛曲线, 从损失值的降低以及曲线的收敛速度可以看出本文模型相对于其他两种模型的优越性.
3.2.2 双重并行因果图网络的影响
本节实验中, 通过分别去除特征因果图网络和时间序列因果图网络来检验这两个因果图网络对于人群行为识别的作用, 实验结果如表1所示, 可以看到, 去除特征因果图网络层对于模型的整体性能影响比较大, 准确率下降了1.2%, Kappa系数也降低了0.025 3. 去除时间序列图网络层也会降低模型的识别能力, 准确率下降了0.7%, Kappa系数降低了0.013 8. 这说明这两个并行的因果图网络层对于模型识别能力都具有促进作用, 起到一个相辅相成的效果.
4 总结与展望
本文提出了一种融合多特征与时间序列的人群行为识别模型, 模型综合考虑人群的物理运动特征, 社交特征, 情绪人格特征以及背景文化特征对于人群行为的影响以及特征之间的相关性, 得到一个人群特征关系模型, 并在模型中采用两个并行的因果图网络层, 融合多特征相关性与时间序列依赖性对于人群行为的影响来识别人群行为. 在MED数据集进行实验, 并与其他文献中提到的优秀的人群行为识别模型框架对比, 发现本文模型在各方面表现都优于其他模型.
尽管本文模型在实验中有良好的表现, 但是还需要进一步的改进. 在本文的研究中, 考虑的是群体的整体行为, 不可否认的是群体中会有不同于群体的个体存在, 后续研究需要综合考虑群体行为与个体行为, 综合考虑两者来识别群体更加准确的发展趋势.
[1] |
Wu S, Yang H, Zheng SB, et al. Crowd behavior analysis via curl and divergence of motion trajectories. International Journal of Computer Vision, 2017, 123(3): 499-519. DOI:10.1007/s11263-017-1005-y |
[2] |
Thyagarajmurthy A, Ninad MG, Rakesh BG, et al. Anomaly detection in surveillance video using pose estimation. In: Sridhar V, Padma MC, Rao KAR, eds. Emerging Research in Electronics, Computer Science and Technology. Singapore: Springer, 2019. 753–766.
|
[3] |
Chu WQ, Xue HY, Yao CW, et al. Sparse coding guided spatiotemporal feature learning for abnormal event detection in large videos. IEEE Transactions on Multimedia, 2019, 21(1): 246-255. DOI:10.1109/TMM.2018.2846411 |
[4] |
Rabiee H, Haddadnia J, Mousavi H, et al. Novel dataset for fine-grained abnormal behavior understanding in crowd. Proceedings of the 2016 13th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). Colorado Springs: IEEE, 2016. 95–101.
|
[5] |
Hassner T, Itcher Y, Kliper-Gross O. Violent flows: Real-time detection of violent crowd behavior. Proceedings of 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. Providence: IEEE, 2012. 1–6.
|
[6] |
Su H, Yang H, Zheng SB, et al. The large-scale crowd behavior perception based on spatio-temporal viscous fluid field. IEEE Transactions on Information Forensics and Security, 2013, 8(10): 1575-1589. DOI:10.1109/TIFS.2013.2277773 |
[7] |
Thampi SM, Varghese EB. IoT-based smart surveillance: Role of sensor data analytics and mobile crowd sensing in crowd behavior analysis. In: Al-Sakib KP, ed. Crowd-Assisted Networking and Computing. Boca Raton: CRC Press, 2018. 45–76.
|
[8] |
Varghese E, Thampi SM, Berretti S. A psychologically inspired fuzzy cognitive deep learning framework to predict crowd behavior. IEEE Transactions on Affective Computing, 2020.
|
[9] |
Zou HS, Su H, Song SH, et al. Understanding human behaviors in crowds by imitating the decision-making process. Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans: AAAI, 2018. 7648–7656.
|
[10] |
Challenger W, Clegg WC, Robinson AM. Understanding crowd behaviours: Guidance and lessons identified. Technical Report, Leeds: University of Leeds. 2009. 11–13.
|
[11] |
Baumeister RF, Vohs KD, Nathan DeWall C, et al. How emotion shapes behavior: Feedback, anticipation, and reflection, rather than direct causation. Personality and Social Psychology Review, 2007, 11(2): 167-203. DOI:10.1177/1088868307301033 |
[12] |
Forsyth DR. Group Dynamics. 7th ed., Belmont: Cengage Learning, 2018.
|
[13] |
Chattaraj U, Seyfried A, Chakroborty P. Comparison of pedestrian fundamental diagram across cultures. Advances in Complex Systems, 2009, 12(3): 393-405. DOI:10.1142/S0219525909002209 |
[14] |
Nazir A, Enz S, Lim MY, et al. Culture-personality based affective model. AI & Society, 2009, 24(3): 281-293. |
[15] |
Hofstede G. Culture’s Consequences: Comparing Values, Behaviors, Institutions, and Organizations Across Nations. 2nd ed., Thousand Oaks: Sage Publications, 2001.
|
[16] |
Hofstede G. Dimensionalizing cultures: The Hofstede model in context. Online Readings in Psychology and Culture, 2011, 2(1): 1–26.
|
[17] |
Wojke N, Bewley A, Paulus D. Simple online and realtime tracking with a deep association metric. Proceedings of 2017 IEEE International Conference on Image Processing (ICIP). Beijing: IEEE, 2017. 3645–3649.
|
[18] |
Liu XH, Ma L, Guo JW, et al. Parallel computation of 3D clipped Voronoi diagrams. IEEE Transactions on Visualization and Computer Graphics, 2022, 28(2): 1363-1372. DOI:10.1109/TVCG.2020.3012288 |
[19] |
Hall ET. The Hidden Dimension. New York: Doubleday, 1966.
|
[20] |
Favaretto RM, Musse SR, Costa AB. Emotion, personality, and cultural aspects in crowds. In: Favaretto RM, Musse SR, Costa AB, eds. Emotion, Personality and Cultural Aspects in Crowds. Cham: Springer, 2019. 23–33.
|
[21] |
Ortony A, Clore GL, Collins A. The Cognitive Structure of Emotions. Cambridge: Cambridge University Press, 1990.
|
[22] |
Mehrabian A. Pleasure-arousal-dominance: A general framework for describing and measuring individual differences in temperament. Current Psychology, 1996, 14(4): 261-292. DOI:10.1007/BF02686918 |
[23] |
Gebhard P. ALMA: A layered model of affect. Proceedings of the 4th International Joint Conference on Autonomous Agents and Multiagent Systems. The Netherlands: ACM, 2005. 29–36.
|
[24] |
Wiggins JS. The Five-factor Model of Personality: Theoretical Perspectives. New York: The Guilford Press, 1996.
|
[25] |
Varghese EB, Thampi SM. A deep learning approach to predict crowd behavior based on emotion. Proceedings of the 1st International Conference on Smart Multimedia. Toulon: Springer, 2018. 296–307.
|