心率(HR)是人体最重要也是最基本的一项生理指标, 在一定程度上能够反映出人的健康状况、压力水平和情绪波动[1]. 连续的心率检测对训练辅助[2], 健康监测, 驾驶员状态评估[3]和情感状态评估等具有重要作用. 但在现实生活中, 往往使用传感器如透射式手指脉搏血氧仪测量心率, 这种接触式测量限制人类活动, 很难在特定情况之外的日常生活中使用[4]. 而且, 在对于某些特殊群体, 如皮肤烧伤病人, 好动症患者, 以及新生婴幼儿等, 很难使用接触式设备进行长时间监测. 因此, 非接触式HR测量的研究具有重要意义.
相比于传统的接触式心率测量方法, 基于rPPG的非接触式HR测量方法更加灵活, 无需测试者合作即可应用. 在rPPG中, 只需数码相机和环境光即可远程访问心脏搏动信息[5]. 如图1所示, 环境光用作光源, 而数码相机则用作光电转换器. rPPG的原理基于以下事实: 血液中的血红蛋白对光具有吸收作用, 并且吸收量与血红蛋白浓度成正比. 由于血红蛋白浓度随血容量脉冲(BVP)呈准周期性变化, 所以血液吸收的光量会随心动周期在皮肤表面下被BVP周期性调节, 表现为皮肤的轻微颜色变化. 尽管由BVP引起的皮肤轻微的颜色变化对于人眼是不可见的, 但是可以使用数码相机对其进行检测[6].
近些年, 一系列基于rPPG的非接触式心率检测方法开始被研究提出. Verkruysse等人[5]首次证明了使用消费级相机远程测量心率的可能性. 在这一研究中, 通过选择视频中人脸前额作为ROI, 并通过计算ROI内所有像素的平均值来计算每帧中的原始RGB信号, 并根据血红蛋白对绿光的吸收比对红光和蓝光的吸收更好的事实, 表明G通道相比于R通道与B通道对血液脉冲信号有更好的反应, 但对噪声因素没有研究. Pho等人[7,8]利用盲源分离的方法, 提取rPPG信号, 使用独立分分析(ICA)对RGB三通道信号进行盲源分离, 选择第二个源信号作为rPPG信号进行心率检测. 虽然该方法抑制了噪声的干扰, 但ICA盲源分离出的源信号是随机排序, 无法确保第二个源信号最能反应血液脉冲信号. Wu等人[9]提出了一种欧拉视频放大(EVM)框架, 利用空间分解和时间滤波来提取血液脉冲信号信号. 这种技术可以放大由BVP引起的皮肤轻微的颜色变化. 因此, 该方法可用于使该现象对肉眼可见. 但由于放大颜色信号的同时, 对频带内的噪声也进行了放大, 所以使用该方法提取rPPG信号进行心率估计仍具有挑战. Wang等人[10]提出一种“平面-正交-皮肤”(POS), 该方法对检测到的人脸区域进行皮肤分割, 分离出皮肤和非皮肤像素, 将皮肤区域作为ROI,在时间归一化RGB空间中定义一个与肤色正交的平面来提取用于心率检测的rPPG信号, 但没考虑血液脉冲信号被噪声淹没的情况.
本文受以上研究启发, 提出一种基于欧拉视频放大和盲源分离的心率检测算法, 通过欧拉颜色放大技术放大正常心率范围内的色度信息, 防止因噪声和图像传感器限制等原因淹没rPPG信号, 引入独立成分分析从色度信息中盲源分离出源信号, 抑制头部微小运动噪声的干扰, 考虑到源信号的随机性, 本文提出一种相关性分析方法, 选出最能反应BVP信号的源信号作为rPPG信号, 通过时域滤波和功率谱密度分析估计出心率, 并通过多组实验验证了本文方法的性能.
2 心率检测模型本文提出的非接触式HR测量算法主要包括4个主要步骤, 具体框架如图2所示, 首先对输入视频进行欧拉视频放大, 接着对放大后的视频进行ROI选取与跟踪, 然后在ROI内提取源信号, 最后对选出的源信号分析, 估计出HR值. 每个步骤的细节在下面的小节中进行了说明.
2.1 欧拉视频放大
为了克服人类视觉系统的局限性, 揭示视频中难以, 或不可能用肉眼看到的时间变化, 提出了欧拉视频放大技术. 该框架是2012年由Wu等人首先设计[9], 其基本的方法是在任意空间位置的时间尺度上, 观察一系列颜色值, 比如像素, 然后在某一特定频带上, 放大颜色值的变化.
欧拉视频放大技术的处理框架如图3所示, 首先运用图像金字塔, 将输入的人脸视频分解为不同的空间子带; 然后对每个空间频带进行时间滤波处理, 滤出感兴趣频带; 接着将提取的带通信号乘以放大系数ɑ, 其中ɑ的值由不同的应用指定, 它的边界受视频运动步长δ和图像空间结构波长λ限制, 如式(1)所示, 并且在空间频带上, 超出确定的空间截止频率时, 衰减ɑ值; 最后将放大的信号添加到原始金字塔图像中, 并重构结果视频.
$(1 + \alpha ) \times \delta < \frac{\lambda }{8}$ | (1) |
每次心脏跳动引起皮肤颜色变化非常细微[11], 尽管可以从人脸视频数据中分析出来, 但这种变化极易被噪声淹没, 同时还会受图像传感器的限制. 因此, 本文使用欧拉颜色放大技术, 对心跳引起的细微颜色变化信号进行放大. 为了将图像的亮度信息和色度信息分离, 将视频的色彩空间由RGB空间转换到YIQ空间, 转换关系如下所示:
$\left\{ \begin{gathered} Y = 0.299R + 0.587G + 0.144B \\ I = 0.596R - 0.274G - 0.322B \\ Q = 0.211R - 0.523G + 0.312B \\ \end{gathered} \right.$ | (2) |
其中, Y表示亮度信息, I、Q表示色度信息, 通过高斯金字塔对每帧视频进行空间分解, 得到多个尺度的子带集合, 利用理想带通滤波器对每一个子带进行滤波, 通带频率为[0.7, 4] Hz, 即正常心率范围, 然后将滤波后子带的I、Q通道的色度信息放大100倍, Y通道的亮度信息衰减为0. 如图4(a)、图4(b)所示, 可以明显看出放大前后, 人脸皮肤的颜色变化. 当血液脉冲到达某一点时, 该点的皮肤颜色会变深, 而当血液脉冲远离时, 该点的颜色会变浅.
2.2 ROI选取与跟踪
为了解决视频图像中的背景噪声问题, 本文对采集到的视频进行人脸检测. 首先以视频的第一帧图像作为参考图像, 使用Viola-Jones人脸检测器[12]框出人脸区域, 接着使用判别响应图拟合(Discriminative Response Map Fitting, DRMF)方法[13], 识别矩形框中面部特征点. 与脸部其他皮肤区域相比, 脸颊的皮肤可以提供更高信噪比的rPPG信号[14], 因此, 本文选定脸颊区域作为ROI. 如图5所示, 黄色矩形框表示识别到的人脸区域, “+”表示面部特征点, 蓝色区域为ROI.
考虑到视频采集时, 人脸会发生微小的刚性运动, 为了抑制刚性运动的干扰, 获得更加平滑的原始信号. 本文使用Kanade-Lucas-Tomasi (KLT)[15]对上述特征点进行跟踪, 首先计算特征点在相邻帧之间位移变化, 得到转移矩阵, 然后通过矩阵变换准确地获取人脸矩形框, 具体如式(3)所示:
$\left\{ \begin{array}{l} {P_{i + 1}} = A \times {P_i}\\ {Q_{i + 1}} = A \times {Q_i} \end{array} \right.$ | (3) |
其中,
选取ROI之后, 在时间序列上, 提取反应BVP的色度信息. 考虑到2.1节已对色度信息进行了放大, 所以本文将放大后的色度信息, 即I与Q通道上的信息, 用作rPPG分析的原始信号. 如文献[12]所述, 空间平均有助于减少传感器噪声, 改善rPPG信号的SNR. 定义
$\overline {I(t)} = \frac{{\displaystyle\sum\nolimits_{x,y \in ROI} {I(x,y,t)} }}{{|ROI|}}$ | (4) |
其中,
2.3.2 盲源分离
一方面考虑到人脸自身的微小运动和相机振动等因素, 原始信号
2.3.3 独立成分选取
针对ICA分离出的源信号为随机排序, 无法确定哪个源信号更能反应BVP信号这一问题, 本文提出相关性分析方法来选择源信号. 由于血红蛋白对波长在540~570 nm之间的黄绿光吸收更多[18], 同时黄绿光处于Q通道颜色范围内, 所以Q通道的信号更能反应BVP信号. 因而可知, 可以用
本文使用皮尔逊相关系数来评价两个变量的线性相关程度, 计算公式如下所示:
$r = \frac{1}{{n - 1}}\sum\limits_{i = 1}^n {\left(\frac{{X_{i} - \overline X }}{{\sigma X}}\right)\left(\frac{{Y_{i} - \overline Y }}{{\sigma Y}}\right)} $ | (5) |
其中, r表示皮尔逊相关系数, r越大, 表明两者越相关, n为样本数量,
将2.3.2节中ICA分离出的
从图8可以看出,
通常rPPG信号会包含感兴趣范围之外的频率分量, 本文将感兴趣的频率范围设置为[0.7, 4] Hz, 以覆盖从42次/分钟(bpm)到240 bpm的正常HR范围. 因此, 使用截止频率为[0.7, 4] Hz的基于汉明窗的有限脉冲响应带通滤波器进行滤波.
最后, 对滤波后的rPPG信号进行快速傅里叶变换(FFT), 将信号转到频域, 并对其进行功率谱密度(PSD)分析[19]. 因为rPPG信号反映了心率变化趋势, 所以该信号中包含一个与心率HR的频率
$\mathop f\nolimits_{HR} = \arg \max |W(f)|$ | (6) |
其中,
3 实验与分析
在本节中, 本文在自采集数据库上对方法进行评估. 所有的实验均在Windows 10操作系统下, 2019a版本的Matlab上实现.
3.1 数据的采集本文使用普通网络摄像头, 在自然光、日光灯、弱光3种场景下对10名参与者(4名男性, 6名女性)的人脸视频进行采集. 要求参与者正对摄像头并与之水平相距60 cm左右. 所有视频的采样频率为30 fps, 空间分辨率为1280×720, 持续时间为30 s左右. 与rPPG记录并行, 本文同步记录了来自透射式手指脉搏血氧仪(DB18, 飞利浦投资有限公司)的脉搏血氧仪数据, 并将之作为参考HR信号.
3.2 实验结果分析为验证本文所提HR检测算法的性能, 与文献[8]、文献[10]提出的心率检测算进行对比. 综合先前研究对HR检测算法的性能评价, 本文采用4种评价指标作为性能度量: 第1种指标是平均绝对误差
$\mathop {HR}\nolimits_{\rm {me}} = \frac{1}{N}\sum\limits_{i = 1}^N {|\mathop {HR}\nolimits_{\rm {vd}} (i) - \mathop {HR}\nolimits_{\rm {gt}} (i)|} $ | (7) |
$RMSE = \sqrt {\frac{1}{N}\sum\limits_{i = 1}^N {\mathop {\left[ {\mathop {HR}\nolimits_{\rm {vd}} (i) - \mathop {HR}\nolimits_{\rm {gt}} (i)} \right]}\nolimits^2 } } $ | (8) |
$\mathop {HR}\nolimits_{{\rm{mer}}} = \frac{1}{N}\sum\limits_{i = 1}^N {\frac{{|\mathop {HR}\nolimits_{\rm {vd}} (i) - \mathop {HR}\nolimits_{{\rm{gt}}} (i)|}}{{\mathop {HR}\nolimits_{{\rm{gt}}} (i)}}} \times 100{\text{%}} $ | (9) |
在自然光场景下, 心率检测的性能如表1所示. 比较发现, 3种方法的
在日光灯场景下, 表2结果表明, 由于人脸光照环境发生变化, 导致提取的rPPG信号相比于在自然场景下变弱, 增大了被噪声淹没的可能性. 所以3种方法性能都有所下降. 文献[8]和文献[10]的方法,
在弱光场景下, 如表3所示, 3种方法性能明显下降, 文献[8]和文献[10]这两种方法的
从数据结果可以看出, 本文所提方法具有较好的稳定性. 在不同光照条件下, 相比于先前两种方法, 具有更低的误差率. 主要原因如下, 相比于文献[10]的方法, 本文考虑到血液脉冲信号被噪声淹没的情况, 并通过引进欧拉颜色放大技术, 放大正常心率范围内的色度信息来解决. 相比于文献[8]的方法, 本文针对盲源分离出的信号具有随机性, 无法确定哪一个源信号更能反应血液脉冲信号这一问题, 通过相关性分析方法, 评价各个源信号与所选血液脉冲参考信号的相关程度, 选取相关程度最大的源信号作为rPPG信号, 提高了算法的稳定性.
通过显示参与者的Bland–Altman图来评估基准心率
如图10所示, 横坐标为基准心率
4 总结与展望
rPPG技术是一种远程人体生命体征监测技术, 在特殊情况下非常有用, 如新生儿监护、远程医疗、健康监护等, 具有重要的研究意义. 本文提出的基于视频放大与盲源分离的非接触式心率检测方法通过欧拉颜色放大技术放大正常心率范围内的色度信息, 解决了因噪声和图像传感器限制等原因淹没rPPG信号的问题. 同时引入主成分分析从色度信息中盲源分离出源信号, 抑制了头部微小运动噪声的干扰, 考虑到源信号的随机性, 利用血红蛋白对波长在540~577 nm之间的黄绿光吸收更多的先验知识, 提出一种相关性分析方法, 选出最能反应BVP信号的源信号作为rPPG信号. 实验结果表明, 本文提出的HR检测方法比传统的方法具有更好的HR测量精度和稳定性. 但在剧烈运动和光照突变的场景下, 本文的方法具有一定的局限性. 在未来的工作中, 将进一步研究来解决剧烈运动和光照突变引起的噪声问题.
[1] |
Kannel WB, Kannel C, Paffenbarger RS, et al. Heart rate and cardiovascular mortality: The Framingham study. American Heart Journal, 1987, 113(6): 1489-1494. DOI:10.1016/0002-8703(87)90666-1 |
[2] |
Temko A. Accurate heart rate monitoring during physical exercises using PPG. IEEE Transactions on Biomedical Engineering, 2017, 64(9): 2016-2024. DOI:10.1109/lTBME.2017.2676243 |
[3] |
Fouad RM, Onsy A, Omer OA. Improvement of driverless cars’ passengers on board health and safety, using low-cost real-time heart rate monitoring system. Proceedings of the 24th IEEE International Conference on Automation and Computing. Newcastle upon Tyne, UK. 2018. 1–6.
|
[4] |
Teng XF, Zhang YT. The effect of contacting force on photoplethysmographic signals. Physiological Measurement, 2004, 25(5): 1323-1335. DOI:10.1088/0967-3334/25/5/020 |
[5] |
Verkruysse W, Svaasand LO, Nelson JS. Remote plethysmographic imaging using ambient light. Optics Express, 2008, 16(26): 21434-21445. DOI:10.1364/OE.16.021434 |
[6] |
Lewandowska M, Nowak J. Measuring pulse rate with a Webcam. Journal of Medical Imaging and Health Informatics, 2012, 2(1): 87-92. DOI:10.1166/jmihi.2012.1064 |
[7] |
Poh MZ, McDuff DJ, Picard RW. Non-contact, automated cardiac pulse measurements using video imaging and blind source separation. Optics Express, 2010, 18(10): 10762-10774. DOI:10.1364/OE.18.010762 |
[8] |
Poh MZ, McDuff DJ, Picard RW. Advancements in noncontact, multiparameter physiological measurements using a Webcam. IEEE Transactions on Biomedical Engineering, 2011, 58(1): 7-11. DOI:10.1109/TBME.2010.2086456 |
[9] |
Wu HY, Rubinstein M, Shih E, et al. Eulerian video magnification for revealing subtle changes in the world. ACM Transactions on Graphics, 2012, 31(4): 65. |
[10] |
Wang WJ, Den Brinker AC, Stuijk S, et al. Algorithmic principles of remote PPG. IEEE Transactions on Biomedical Engineering, 2017, 64(7): 1479-1491. DOI:10.1109/TBME.2016.2609282 |
[11] |
Haque MA, Nasrollahi K, Moeslund TB. Heartbeat signal from facial video for biometric recognition. Proceedings of the 19th Scandinavian Conference on Image Analysis. Copenhagen, Denmark. 2015. 165–174.
|
[12] |
Viola PA, Jones MJ. Rapid object detection using a boosted cascade of simple features. Proceedings of 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Kauai, HI, USA. 2001. I.
|
[13] |
Asthana A, Zafeiriou S, Cheng SY, et al. Robust discriminative response map fitting with constrained local models. Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA. 2013. 3444–3451.
|
[14] |
Lempe G, Zaunseder S, Wirthgen T, et al. ROI selection for remote photoplethysmography. Meinzer HP, Deserno TM, Handels H, et al. Bildverarbeitung für die Medizin 2013. Berlin, Heidelberg: Springer, 2013. 99–103.
|
[15] |
Tomasi C, Kanade T. Detection and tracking of point features. Technical Report, 1991, 91(21): 9795–9802.
|
[16] |
Tarvainen MP, Ranta-Aho PO, Karjalainen PA. An advanced detrending method with application to HRV analysis. IEEE Transactions on Biomedical Engineering, 2002, 49(2): 172-175. DOI:10.1109/10.979357 |
[17] |
Cardoso JF. High-order contrasts for independent component analysis. Neural Computation, 1999, 11(1): 157-192. DOI:10.1162/089976699300016863 |
[18] |
戚刚, 杨学志, 吴秀, 等. 非合作面部晃动情况下的心率检测. 中国图象图形学报, 2017, 22(1): 126-136. DOI:10.11834/jig.20170114 |
[19] |
Welch P. The use of fast fourier transform for the estimation of power spectra: A method based on time averaging over short, modified periodograms. IEEE Transactions on Audio and Electroacoustics, 1967, 15(2): 70-73. DOI:10.1109/TAU.1967.1161901 |
[20] |
Bland JM, Altman D. Statistical methods for assessing agreement between two methods of clinical measurement. The Lancet, 1986, 327(8476): 307-310. DOI:10.1016/S0140-6736(86)90837-8 |