2. 南京邮电大学 江苏省无线传感网高技术重点实验室, 南京 210023
2. Jiangsu High Technology Research Key Laboratory for Wireless Sensor Networks, Nanjing University of Posts and Telecommuni-cations, Nanjing 210023, China
情感计算不仅要让现在的计算机拥有智力能力, 还要让它具备一定的情感交互能力, 这样有利于人们与计算机有更好的交流. 要实现情感计算首要问题是情感识别, 情感识别直接影响着能否实现情感计算[1]. 皮肤电信号作为生理参数只受自主神经系统和内分泌系统的分配, 而且它相比其他生理参数更易于采集. 但是它的缺陷也同样明显, 如信号弱, 抗干扰能力差等. 文本信息作为人类最常用的交流手段之一, 其本身蕴藏着丰富的信息资源, 但是文本信息的情感识别也存在着很多缺陷, 如主观性强等. 所以这两种单模态的情感识别系统显然不能保证情感识别系统的准确性. 但是将这两类不同类型信号的模态融合互补了单模态情感识别的缺陷, 提高了分类器的识别准确度. 它的优势在于, 当一个通道的特征或识别过程受到影响或者缺失时, 另一个通道能很好的进行补足, 这样识别系统就会有很好的准确性和鲁棒性.
2004年, Kim等人将多生理参数进行融合, 他们使用音频和视频作为实验素材釆集被试的心电信号、脉搏信号、皮肤温度和皮肤电导信号, 进行情感识别研究, 识别率达到了78.4%[2]. 2004年东京大学的Wang等[3]使用生理信号的传感器和动画文本实现在线交流情感. 2006年, Lee等人[4]融合心电信号和皮肤电信号这两类生理参数识别人类情感, 情感识别率达到80.2%. 2017年陈鹏展等人[5]通过融合语音信号与文本信息这两类信号也提高了识别率.
本文以皮肤电信号和文本信号这两类不同类型的信号为基础[6], 提出了它们各自的特征情感分析和融合算法[7]. 并对各自的识别结果进行加权融合, 构建双模态分类器. 并对融合之后的识别率与单模态情况下的识别率和Kim, Lee等人利用多生理参数融合识别情感进行了比较. 实验结果表明不同类型的双模态情感识别系统具有更高的识别率.
1 特征提取 1.1 皮肤电信号的特征提取与数据处理由于皮肤电信号比较微弱, 易受到机器干扰, 肌电干扰, 电磁干扰等的影响, 所以要对采集的皮肤电信号去噪处理. 本文采用小波变换进行去噪处理[8]. 小波变化有其特有的优势, 它在低频部分和高频部分对与频率分辨率和时间分辨率所展现出来的处理效果完全不同, 前者具有较高的频率分辨率和较低的时间分辨率, 而后者具有较高的时间分辨率和较低的频率分辨率. 因此小波变换对于信号的自适应性非常强, 尤其适用于生理信号[9]的分析. 信号
$W{T_f}\left(a, \tau \right) = \frac{1}{{\sqrt a }}\oint_R {f\left(t\right){\psi ^*}\left(\frac{{t - \tau }}{a}\right)} dt$ | (1) |
其中,
${\psi _{a, \tau }}\left(t\right) = \frac{1}{{\sqrt a }}\psi \left(\frac{{t - \tau }}{a}\right)$ | (2) |
连续小波变换存在逆变换的条件是存在容许条件, 容许条件公式:
${C_\psi } = \int_R {\frac{{|\psi \left(\omega \right){|^2}}}{{|\omega |}}} d\omega < \infty $ | (3) |
连续小波变换的逆变换公式为:
$f(t) = \frac{1}{{{C_\psi }}}\int_0^{ + \infty } {\frac{{da}}{{{a^2}}}} \int_{ - \infty }^{ + \infty } {W{T_f}} \left(a, \tau \right)\frac{1}{{\sqrt a }}\psi \left(\frac{{t - \tau }}{a}\right)d\tau $ | (4) |
但是在实际应用中, 我们通常要将连续小波变换化为离散小波变换, 主要是为了方便计算机进行分析、处理. 通过对小波基函数
${\psi _{j, k}}(t) = {a_0}^{\frac{{ - j}}{2}}\psi \left(a_0^{ - j}t - k{\tau _0}\right)j\;\;j = 0, 1, 2...k \in Z$ | (5) |
则离散小波变换为:
$W{T_f}(j, k) = \oint {f(t)} a_0^{\frac{{ - j}}{2}}\psi \left(a_0^{ - j}t - k{\tau _0}\right)dt$ | (6) |
对信号进行小波变换离散化实质上就是对信号分解, 可以得到信号的低频分量
在对信号处理之后, 删去无效数据, 留下有效数据. 参照德国 Augsburg 大学[10]特征提取的方法, 提取了信号的时域和频域中最能代表皮肤电信号变化的统计值作为情感识别研究的原始特征. 在时域中, 提取了皮肤电信号的: 平均值, 中位数, 标准差, 最大值, 最小值, 最小值比率, 最大值比率, 最大最小差值, 一阶差分的均值, 一阶差分的中位数, 一阶差分的标准差, 一阶差分的最大值, 一阶差分的最小值, 一阶差分的最小值比率, 一阶差分的最大值比率, 二阶差分的均值, 二阶差分的中位数, 二阶差分的标准差, 二阶差分的最大值, 二阶差分的最小值, 二阶差分的最小值比率, 二阶差分的最大值比率22个时域特征. 信号的一阶差分检测局部极值点, 二阶差分检测局部拐点. 为了提取皮肤电信号的频域特征, 先对皮肤电信号进行离散傅里叶变换, 然后计算频率均值、中值、标准差、最大值、最小值、最大最小差值, 得到6个频域特征. 根据公式提取的28的个统计特征的特征值的取值范围处在不同的数量级, 为了方便后续处理, 所以对他们进行归一化处理, 使各特征值的取值范围在
在提取特征过程中涉及到的主要计算公式如下:
(1)均值
${u_x} = \frac{1}{N}\sum\nolimits_1^n {{X_n}}$ | (7) |
(2) 标准差
${\sigma _x} = {\left\{ \frac{1}{{N - 1}}\sum\nolimits_{n = 1}^N {{{\left({X_n} - {\nu _x}\right)}^2}} \right\} ^{\frac{1}{2}}}$ | (8) |
(3) 归一化
$X_i' = \frac{{{X_i} - {X_{i\min }}}}{{{X_{i\max }} - {X_{i\min }}}}$ | (9) |
(4) 一阶差分
$1{d_n} = {X_{n + 1}} - {X_n}$ | (10) |
(5) 一阶差分的绝对值均值
${\delta _x} = \frac{1}{{N - 1}}\sum\nolimits_{n = 1}^{N - 1} {\left({X_{n + 1}} - {X_n}\right)} $ | (11) |
(6) 二阶差分
$2{d_n} = {X_{n + 1}} - {X_n}$ | (12) |
(7) 二阶差分绝对值
${\gamma _x} = \frac{1}{{N - 2}}\sum\nolimits_{n = 1}^{N - 2} {\left({X_{n + 2}} - {X_n}\right)} $ | (13) |
(8) 最小值比率
$\min Ratio = \frac{{Min}}{N}$ | (14) |
(9) 最大值比率
$\max Ratio = \frac{{Max}}{N}$ | (15) |
在以上各式中
文本信息的特征提取主要是对文本进行语法和语义的分析, 通过对语句的拆分、去除冗余信息、去除停当词、分词、标注词性等提取出表达文本情感倾向性的情感词. 采用大连理工大学信息检索研究室的情感词汇本体库[11]来完成上述句子分词工作. 即把一个完整的句子拆分成了若干个单独的情感词. 采用布隆过滤器去除掉所有文本的停用词, 以减少文本特征向量的维度和不必要的运算量.
特征提取采用信息增益
$\begin{aligned} X(Q) = &- \sum\nolimits_{k = 1}^n {p({A_k})} \log P({A_k}) + P(Q)\sum\nolimits_{i = 1}^n {p({A_k})}\\ & \log P({A_k}|Q) + P(\overline Q )\sum\nolimits_{i = 1}^n {p({A_k}|\overline Q )} \log P({A_k}|\overline Q ) \hfill \\ \end{aligned} $ | (16) |
式中,
单通道皮肤电情感识别模型创建思想是: 对原始信号进行小波去噪处理之后留下有效数据进行特征选择, 以最少的特征个数和最高的识别率来识别情感. 再通过创建训练样本与测试样本, 利用人工神经网络算法[13]对情感进行分类, 获得皮肤电情感识别结果. 基于单通道的皮肤电信号模型分类器的识别框图如图3所示.
2.2 单通道文本情感识别模型
文本情感识别模型的主要思想是通过大连理工大学信息检索研究室提供的中文情感词库对句子中的情感关键词进行匹配判断. 通过对文本内容进行预处理、特征提取和向量转化, 然后通过高斯混合模型分类器进行情感状态的分类识别. 基于单通道文本分类器识别框图如图4所示.
2.3 双模态融合识别模型本文对两种单模态分类器分别采用了人工神经网络算法和高斯混合模型算法来进行4种情感识别. 即高兴、悲伤、愤怒、平静. 识别完成后再利用改进的高斯混合模型进行判决层融合[14]. 高斯混合模型是
$P({x_t}|\lambda ) = \sum\nolimits_{i = 1}^m {{a_i}} {p_i}\left({x_t};{u_i}, \sum i \right)$ | (17) |
式中,
$\begin{aligned}{p_i}\left({x_t};{u_i}, \sum i \right) = &\frac{1}{{\left[2{\pi ^{\frac{D}{2}}}\left|\displaystyle\sum i \right|{^{\frac{1}{2}}}\right]}}\\ &\exp \left\{ - \frac{1}{{2{{({x_t} - {u_i})}^T}\displaystyle\sum\nolimits_{}^{ - 1} {({x_t} - {u_i})} }}\right\} \end{aligned}$ | (18) |
完整的高斯混合分布密度公式如下:
${\lambda _t} = \left\{ {a_i}, {u_i}, \sum i \right\} \;\;i = 1, \cdots, m$ | (19) |
其中, GMM模型的参数估计采用EM算法迭代完成, 使得GMM表示的样本分布概率最佳. 由于单通道在工作时都会存在一定干扰, 当文本信息分类器受到噪声干扰, 那么他的性能就会下降; 皮肤电信号受到仪器采集的影响, 如抖动, 碰撞或者仪器本身受到的基线漂移干扰, 此时性能都会有所下降. 此时就要考虑在融合前各个子分类器的置信度, 所以本文采取自适应加权融合算法让两个通道信息进更新和融合. 各分类器加权系数[15]根据其对当前样本可靠性进行动态调整, 置信度高的分类器所占权重更高, 算法以自适应的方式找到每个分类器的最优加权因子, 利用得到的加权因子实现双模态数据融合, 获得最终的分类结果. 两个子分类器给出的情感类的GMM似然度记为
${I_n} = \sum\nolimits_{1 \leqslant i \leqslant j \leqslant 4} {\frac{{\left|\ln \left(P\left(y|{\lambda _j}\right)\right)\ln \left(P\left(y|{\lambda _j}\right)\right)\right|}}{{ \left|\displaystyle\sum\nolimits_{k = 1}^4 {\ln \left({P_n}\left(y|{\lambda _k}\right)\right)} \right|}}} $ | (20) |
子分类器的分类结果公式如下:
${A_n} = \max \{ {P_n}(y|{\lambda _k})\} $ | (21) |
子分类器的判决置信度的高低与样本所处概率分布模型的非重叠区域有关, 似然值越分散, 判决置信度越高, 性能越好. 最后通过对计算出来的两个子分类器的判决进行加权融合, 加权融合公式如下:
$Y = \sum\nolimits_{n = 1}^2 {{I_n}} {A_n}$ | (22) |
式中,
双模态混合模型识别框图如图5所示.
3 实验结果分析
实验中采用高斯混合模型作为融合算法, 通过4种类别的训练样本集和测试样本集完成对两个单模态和一个多模态分类器实验, 4种类别包括高兴、悲伤、愤怒、平静. 每个训练样本集包括每种情感的150条皮肤电样本与150条文本信息样本, 每个测试样本各含50条样本.
通过对三种模态, 即两个单模态和一个融合模态的实验之后, 图6显示了三个不同模型产生的实验结果. 实验表明, 融合之后的情感识别模型对每类情感识别精度明显提高. 平均识别率也由单模态的70%, 80%提高到双模态融合后的90%.
而对比于多生理参数融合, 2004年, Kim等人对多生理参数进行融合, 他们使用音频和视频作为实验素材釆集被试的心电信号、脉搏信号、皮肤温度和皮肤电导信号, 进行情感识别研究, 识别率达到了78.4%. 2006年, Lee等人融合心电信号和皮肤电信号这两类生理参数识别人类情感, 识别率达到了80.2%.
实验结果表明, 两种不同类型信号模态融合的情感识别, 不仅可以提高各自单模态的情感识别率, 而且较之于多模态生理参数的融合情感识别率也大幅度提高.
表1显示采取双模态情感识别系统之后对四类情感的误判率只有6%, 10%, 8%, 14%. 比较于单模态的情感识别率有了大大的提高.
4 结论与展望
本文采用加权融合的方式将皮肤电信号识别情感与文本信息识别情感的结果进行融合, 与仅利用皮肤电信号识别情感和仅利用文本信息识别情感进行了比较, 结果表明无论是识别率还是识别精度和鲁棒性都得到了大幅提高. 本文为当前单纯的利用一种方式识别情感提供了一种新的思路, 实验也证明是确实可行的.
目前的情感识别研究要么采取的是单通道情感识别, 要么采取的是多生理信号的融合或同一类型不同特征的融合, 而本文将生理信号与文本信息两种不同类型的信号进行加权融合, 通过对这两种不同来源数据的分类结果再次融合, 实现了不同类型信号情感的双模态识别系统的研究. 通过对单模态皮肤电信号、文本信息的分类实验以及双模态融合后的情感识别实验, 实验结果表明, 相比于一般的单模态和多生理信号融合的情感识别, 该种模式系统识别率更高, 鲁棒性更强.
[1] |
Vinciarelli A, Pantic M, Bourlard H. Social signal processing: Survey of an emerging domain. Image and Vision Computing, 2009, 27(12): 1743-1759. DOI:10.1016/j.imavis.2008.11.007 |
[2] |
Kim KH, Bang SW, Kim SR. Emotion recognition system using short-term monitoring of physiological signals. Medical and Biological Engineering and Computing, 2004, 42(3): 419-427. DOI:10.1007/BF02344719 |
[3] |
Wang H, Prendinger H, Igarashi T. Communicating emotions in online chat using physiological sensors and animated text. Conference on Human Factors in Computing Systems. Vienna, Austria. 2004
|
[4] |
Lee CK, Yoo SK, Park YJ, et al. Using neural network to recognize human emotions from heart rate variability and skin resistance. Proceedings of 2005 IEEE Engineering in Medicine and Biology 27th Annual Conference. Shanghai, China. 2006. 5523–5525.
|
[5] |
陈鹏展, 张欣, 徐芳萍. 基于语音信号与文本信息的双模态情感识别. 华东交通大学学报, 2017, 34(2): 100-104. |
[6] |
曹梦思. 基于脑电信号的中文情感词的情感识别[硕士学位论文]. 北京: 北京邮电大学, 2012.
|
[7] |
付丽琴, 毛峡, 陈立江. 基于改进的排序式选举算法的语音情感融合识别. 计算机应用, 2009, 29(2): 381-385. |
[8] |
Li CW, Zheng CX, Tai CF. Detection of ECG characteristic points using wavelet transforms. IEEE Transactions on Biomedical Engineering, 1995, 42(1): 21–28.
|
[9] |
Alfaouri M, Daqrouq K. ECG signal denoising by wavelet transform thresholding. American Journal of Applied Sciences, 2008, 5(3): 276-281. DOI:10.3844/ajassp.2008.276.281 |
[10] |
Kim J, André E. Emotion recognition using physiological and speech signal in short-term observation. In: André E, Dybkjær L, Minker W, et al., eds. Perception and Interactive Technologies. Berlin, Heidelberg. Springer. 2006. 53–64.
|
[11] |
徐琳宏, 林鸿飞, 潘宇, 等. 情感词汇本体的构造. 情报学报, 2008, 27(2): 180-185. DOI:10.3969/j.issn.1000-0135.2008.02.004 |
[12] |
申红, 吕宝粮, 内山将夫, 等. 文本分类的特征提取方法比较与改进. 计算机仿真, 2006, 23(3): 222-224. DOI:10.3969/j.issn.1006-9348.2006.03.061 |
[13] |
Wang GJ, Wang ZL, Li LX. An affective model of artificial psychology [computational affection model]. Proceedings of 2005 International Conference on Communications, Circuits and Systems. Hong Kong, China. 2005. 1061–1064.
|
[14] |
黄程韦, 金赟, 王青云, 等. 基于语音信号与心电信号的多模态情感识别. 东南大学学报(自然科学版), 2010, 40(5): 895-900. DOI:10.3969/j.issn.1001-0505.2010.05.003 |
[15] |
蔡莉莉. 基于数据融合的语音情感分析与识别[硕士学位论文]. 南京: 东南大学, 2005.
|