轮廓含有图像重要的视觉特征, 因此, 轮廓提取是计算机视觉研究领域重要的研究方向, 旨在对图像主体形状等中层视觉信息的提取[1], 其研究难点在于如何有效地检测出轮廓信息, 提取到主体轮廓的同时尽可能减少背景纹理边缘信息, 减少冗余信息, 有效降低图像分析和处理的时间复杂度, 对图像的后续处理具有重要意义.
目前, 轮廓提取方法大多基于传统的边缘提取方法, 如基于图像灰度变化提取图像轮廓, 常用的有基于Canny算子[2]、Sobel算子[3]、Prewitt算子[4]、Roberts算子[5]等, 这类方法实现过程较简单, 针对背景简单的图像具有较好的效果, 但处理背景较复杂的图像时, 其效果不尽人意, 提取出的主体轮廓带有很多背景边缘. 因此, 针对这一问题, 研究人员受到生物视觉信息处理机制的启发, 提出了一系列模拟生物视觉感受野机制的轮廓提取方法. 如: Rodieck等人[6]基于高斯差分函数模拟视网膜神经节细胞的同心圆式感受野, Marcelja等人[7]采用一维Gabor滤波器来模拟具有方向选择特性的非对称性感受野; Daugman等人[8, 9]使用二维Gabor滤波器[10]来模拟视皮层简单细胞的感受野特性. 20世纪80年代, 李朝义院士发现了除经典感受野外[11] , 还存在着外周更大的非经典感受野来调节经典感受野的结果, 随后, Grigorescu等人[12]将非经典感受野的抑制作用引入轮廓提取任务中, 构建了各向异性抑制和各向同性抑制的计算模型; 桑农, 曾驰[13–15]等人提出了蝶形感受野结构的非经典感受野抑制算法, 杨开富提出了基于多特征的提取算法(MCI)[16]. 和基于边缘检测的轮廓提取方法相比, 基于视觉信息处理机制的方法能够较好地抑制背景边缘, 有效提取主体轮廓.
本文基于视觉神经元信息处理机理, 提出了一种基于时空脉冲编码的图像主体轮廓提取方法. 从视觉系统的感知机理模拟视觉感受野及视觉神经元信息编码机制提取图像主体轮廓. 首先, 利用Gabor函数模拟视觉神经节细胞感受野对图像进行多尺度、多方向特征提取; 然后, 采用各向异性抑制模型来模拟非经典感受野对特征进行初步抑制其背景、纹理和边缘. 同时对不同尺度感受野得到的特征进行小尺度细节特征提取, 大尺度主体轮廓提取, 进而进行时空脉冲编码. 最后, 采用漏积分点火神经元计算模型提取图像主体特征, 并使用非极大值抑制和滞后阈值二值化处理提取图像主体轮廓.
2 基于时空脉冲编码的图像主体轮廓提取方法受到视觉神经元信息处理机理启发, 本文根据视觉系统信息处理机制及神经元信息传递流程, 提出了基于时空脉冲编码的图像主体轮廓提取方法, 其总体框架如图1所示.
2.1 各向异性抑制模型
生物视网膜的视觉神经节细胞感受野具有明显的方向选择性[17], 经典感受野可以识别不同方向的边界信息. 二维Gabor滤波器可以很好地实现经典感受野的方向选择性, 所以本文我们使用二维Gabor滤波器来模拟简单视觉神经节细胞感受野[9, 10], 二维Gabor滤波器核函数见式(1).
$ \left\{ {\begin{split} &g(x, y\lambda , \sigma , \theta , \varphi ) = \exp \left(\frac{{{{\widetilde {x^2}}} + {\gamma}^2 {{\widetilde {y^2}}}}}{{2{\sigma ^2}}}\right) \cos \left( 2\pi \frac{{\tilde x}}{\lambda } + \varphi \right)\\ &\tilde x = x\cos \theta + y\sin \theta\\ &\tilde y = - x\sin \theta + y\cos \theta \end{split}} \right. $ | (1) |
其中, 参数
根据卷积定理, 简单神经节细胞感受野函数与输入的图像
$ r(x, y\lambda , \sigma , \theta , \varphi ) = f(x, y) * g(x, y\lambda , \sigma , \theta , \varphi ) $ | (2) |
在计算机视觉中使用的简单视觉神经节细胞奇对称感受野滤波器、偶对称感受野滤波器的响应模, 即先平方求和后再开方, 来捕捉典型复杂视觉神经节细胞的基本特性[18], 复杂视觉神经节细胞响应见式(3).
$ {E_{\sigma , \lambda , \theta }}(x, y) = \sqrt {r_{\sigma , \lambda ,\theta , 0}^2(x, y) + r_{\sigma , \lambda , \theta ,- \frac{\pi }{2}}^2(x, y)} $ | (3) |
感受野方向的计算见式(4).
$ {\theta _i} = \frac{{(i - 1)\pi }}{{{N_\theta }}}, \begin{array}{*{20}{c}} {}&{} \end{array}i = 1, 2, \cdots , {N_\theta } $ | (4) |
非经典感受野主要是对经典感受野输出结果做调制, 表现为抑制作用或兴奋作用. 本文使用DOG函数来模拟非经典感受野, 函数见式(5).
$ \begin{split} &DOG(x, y)\\ &=H\left(\frac{1}{2\pi {(k\sigma )}^{2}}\mathrm{exp}\left(-\frac{{x}^{2}+{y}^{2}}{2{(k\sigma )}^{2}}\right) - \frac{1}{2\pi {\sigma }^{2}}\mathrm{exp}\left(-\frac{{x}^{2}+{y}^{2}}{2{\sigma }^{2}}\right)\right) \end{split} $ | (5) |
其中,
$ {W_{DOG}} = \frac{{DOG(x, y)}}{{\left\| {DOG(x, y)} \right\|}} $ | (6) |
其中,
这里本文使用各向异性抑制非经典感受野抑制模型, 抑制项是由各个方向的复杂细胞感受野得到的响应与加权函数卷积得到, 见式(7).
$ T_{\sigma , \lambda , {\theta _i}}^A(x, y) = {E_{\sigma , \lambda , {\theta _i} }}(x, y) * {w_\sigma }(x, y) $ | (7) |
利用复杂细胞感受野得到的响应减去抑制项就可以得到各个方向抑制之后的结果, 见式(8).
$ \tilde b_{\sigma , \lambda , {\theta _i}}^{A\alpha }(x, y) = H({E_{\sigma , \lambda , {\theta _i}}}(x, y) - \alpha T_{\sigma , \lambda , {\theta _i}}^A(x, y)) $ | (8) |
其中,
之后从同一个尺度, 每一个像素点位置挑选最大的响应方向作为该像素点的响应见式(9).
$ b_{\sigma , \lambda }^{A\alpha }(x, y) = \max \left\{ {\tilde b_{\sigma , \lambda , {\theta _i}}^{A\alpha }(x, y)} \right.|i = 1,2, \cdots , {N_\theta }\left. {} \right\} $ | (9) |
记录每一个像素位置最优方向, 见式(10).
$\left\{ { \begin{split} &{\Theta ^A}(x, y) = {\theta _k}\\ &k = \arg \max \left \{ \tilde b_{\sigma , \lambda , {\theta _i}}^{A\alpha }(x, y)|i = 1,2, \cdots , {{N_\theta }} \right \} \end{split}} \right. $ | (10) |
经典感受野有固定的最优朝向, 当图像局部边缘朝向与感野朝向相同时, 经典感受野的响应最大. 在实际中, 图像轮廓和纹理在不同尺度上具有不一致性. 生物实验表明视觉系统的感知机制并非建立在单一的感受野尺度上, 视觉感受野的适应性与多尺度特征融合有着明确的关系. 所以本文使用多尺度多方向的简单视觉神经节细胞感受野函数来对图像进行卷积计算, 并计算复杂视觉神经节细胞感受野响应, 然后进行非经典感受野各向异性抑制, 得到不同尺度感受野的提取结果.
生物研究表明, 生物视觉感受野具有基于小尺度视觉感受野可以提取到图像的大多细节特征, 而大尺度感受野下提取会使图像大部分细节特征消失只保留一些主体轮廓特征[20]. 为了验证这一特性, 本文在这里使用了二维Gabor函数来模拟生物视觉感受野, 通过调整参数
从图2结果可以验证上述生物特性, 从长条形框的对比可以看出在小尺度下, 提取出的细节特征很丰富, 在大尺度感受野下会丢弃一些细节特征. 从方形框的对比可以看出在大尺度感受野下虽然丢弃了一些细节和背景纹理特征但是有一些主体轮廓特征也被丢弃. 所以基于这个特性, 本文以大尺度感受野得到的主体轮廓特征为主, 以小尺度感受野得到的细节特征为补充进行融合, 在保留主体轮廓特征的同时尽可能地保留细节特征, 抑制背景特征.
本文根据各视觉感受野尺度的不同, 利用高斯函数求得不同尺度的权重见式(11), 权重越大说明该尺度下轮廓特征越重要, 然后利用各权重与各尺度图像相乘得到结果, 见式(12).
$ {w_k} = \exp \left( - \frac{{{{(k - \mu )}^2}}}{{2{r^2}}}\right),\begin{array}{*{20}{c}} {}&{}&{k = 1,2, \cdots ,N} \end{array} $ | (11) |
其中, k为不同尺度感受野的个数, 1为尺度最大的感受野, N为最小尺度的感受野,
$ {B_{{\sigma _k}}} = b_{{\sigma _k}\lambda }^{A\alpha }(x, y) \times {w_k},\begin{array}{*{20}{c}} {}&{}&{k = 1,2, \cdots , N} \end{array} $ | (12) |
最后将得到的结果各个尺度, 相同位置像素点组合起来, 编码为一个时间脉冲序列见图3.
2.3 图像主体轮廓提取生物研究表明在视觉信息传递的过程中, 视觉系统会对视觉信息作整合与去冗余处理. 所以本文采用LIF神经元组成的神经网络来模拟视觉信息在不同视觉细胞之间的传递过程, 在信息传递的过程中利用LIF神经元脉冲发放特性, 以脉冲发放频率对视觉特征进行时空脉冲编码, 减少非主体轮廓特征的冗余, 同时充分体现了视觉系统中的神经电生理特性, LIF神经元模型见式(13).
$\left\{ { \begin{split} &{c_{mt}} \frac{{dv}}{{dt}} = - {g_l} + {I_{\text{in}}},\;\;\;\;\;\;\;\;\;ref = 0\\ &v = {v_{\text{reset}}}, ref = ref - 1,\;\;ref \ne 0\\ &v = {v_G},ref = const,\;\;\;\;\;\;\;\;\;\;v > {v_{th}} \end{split} } \right.$ | (13) |
其中,
建立一个和图像尺寸相同的脉冲神经网络, 将2.4得到的时空脉冲序列输入到脉冲神经网络中, 得到最终每个神经元的脉冲发放频率作为最终的结果. 截取某个部分的神经元的脉冲发放如图4所示.
得到结果以后利用非极大值抑制做细化处理, 用滞后阈值法做二值化处理, 得到最终的提取结果.
3 实验结果与分析 3.1 参数选取本文使用Gabor能量[9, 10], 各向同性抑制[12], 各向异性抑制[12] , MCI[16]作为对比方法. 参数设置如下: 4个感受野尺度
本文使用RUG40图像库[12]的40幅512 × 512 像素大小的典型自然场景图像组合形成实验测试样本集. 每幅测试图像都有一张人工绘制的基准轮廓图(ground truth), 主观上用于评价轮廓提取方法的有效性.
客观评价方面, 选取常用的图像轮廓提取方法客观评价指标
$ P = \frac{{card(E)}}{{card(E) + card({E_{FP}}) + card({E_{FN}})}} $ | (14) |
$ \left\{ {\begin{split} &错检率:{e_{fp}} = \frac{{card({E_{FP}})}}{{card(E)}}\\ &漏检率:{e_{fn}} = \frac{{card({E_{FN}})}}{{card({E_{GT}})}} \end{split}} \right. $ | (15) |
RUG40数据集的主观评价结果见图5, 客观评价结果见表1, 盒须图见图6.
3.3 其他数据集实验为了对本文方法做更好的验证, 这里使用同样的对比方法, 使用的参数与第3.2节相同, 对自己拍摄的生活中的图片进行主体轮廓的提取. 最后对于各方法得到的主观最优结果如图7所示.
3.4 分析与讨论从图5主观对比结果可以看出, 本文提出的方法可以有效地抑制背景纹理边缘信息并且很完整突出主体轮廓信息. 从goat_3、hyena、golfcart几张图的结果可以看出本文方法对比Gabor能量、Anisotropic和Isotropic方法对细节的提取更加准确完整方法, 得到的主体轮廓纹理更加显著、连续. 对比MCI方法, 虽然对图像主体轮廓有漏检的部分, 但是对大部分的主体检测的很准确, 并且对背景纹理边缘的抑制效果明显. 对于buffalo虽然主观上看对主体轮廓提取的结果不是非常的明显, 但是对比前3种方法可以明显地看出对于背景纹理边缘的抑制效果很明显.
从表1客观结果可以看出. 本文方法对比其他的主流方法可以很好地同时降低漏检率和错检率, 并且控制漏检率与错检率的平衡, 有效提高检测的准确率, 有效地使主体轮廓提取结果更加显著.
盒须图中盒体的长度越短代表方法的鲁棒性越好. 从图6中的goat_3、hyena中的P值对比可以看出本文的P值均值都大于其他方法的最大P值, 本文方法的最小P值和其他方法的最大P值基本相同. 同时从goat_3、hyena、golfcart中可以看出本文算法得到的P值盒体短于其他方法得到的盒体结果, 这就说明本文的方法相对于其他主流方法鲁棒性更好. 对于图buffalo虽然效果不如MCI方法, 但明显优于前3种方法.
从图7对于自己拍摄的几张图片中各方法的提取结果来看. 对于甜点这张图的提取对比前3种方法, 有效地抑制了桌面的纹理, 同时对甜点轮廓的提取非常精确, 对比MCI算法对主体上的纹理有更好的抑制效果. 对于人物这张图虽然对人物面部的细节提取不如前3种方法, 但是对人物主体轮廓提取很准确, 以及人物前面的食物轮廓提取也很准确. 对于工具这虽然有些主体边缘没有检测出来, 但是大部分的主体轮廓检测得更加精确, 对比其他方法对细节的提取更加准确完整, 对主体的轮廓提取更加准确.
4 结论
本文基于视觉神经元信息编码机制, 提出了一种基于时空脉冲编码的图像主体轮廓提取方法, 模拟生物视觉对于图像的编码过程. 基于生物视觉感受野小尺度提取细节特征更多, 大尺度提取主体轮廓特征更多的特性对多尺度视觉感受野得到的结果进行权值调整, 并利用LIF神经元模拟视觉信息传递过程对多尺度视觉感受野提取到的轮廓结果进行融合, 实现了主体轮廓的提取和背景纹理边缘的抑制. 通过与Gabor、Anisotropic、Isotropi、MCI四种主流方法对比, 本文方法可以有效地降低漏检率与错检率, 同时保持漏检率与错检率的平衡, 提高了方法的鲁棒性. 有效提取主体轮廓, 抑制了背景、纹理和边缘信息.
[1] |
Attneave F. Some informational aspects of visual perception. Psychological Review, 1954, 61(3): 183–193.
|
[2] |
Huang C, Jin W, Xu Q, et al. Sub-pixel edge detection algorithm based on canny—Zernike moment method. Journal of Circuits, Systems and Computers, 2020, 29(15): 2050238. DOI:10.1142/S0218126620502382 |
[3] |
Ravivarma G, Gavaskar K, Malathi D, et al. Implementation of Sobel operator based image edge detection on FPGA. Materials Today: Proceedings, 2021, 45(2): 2401–2407.
|
[4] |
Zhou RG, Yu H, Cheng Y, et al. Quantum image edge extraction based on improved Prewitt operator. Quantum Information Processing, 2019, 18(9): 261. DOI:10.1007/s11128-019-2376-5 |
[5] |
Mohapatra BN. Image edge detection techniques. ACCENTS Transactions on Image Processing and Computer Vision, 2019, 5(15): 15–19.
|
[6] |
Rodieck RW, Stone J. Analysis of receptive fields of cat retinal ganglion cells. Journal of Neurophysiology, 1965, 28(5): 833–849.
|
[7] |
Marcelja. Mathematical description of the responses of simple cortical cells. Journal of the Optical Society of America, 1980, 70(11): 1297–300.
|
[8] |
Daugman JG. Two-dimensional spectral analysis of cortical receptive field profiles. Vision Research, 1980, 20(10): 847–856.
|
[9] |
Daugman JG. Uncertainty relation for resolution in space, spatial frequency, and orientation optimized by two-dimensional visual cortical filters. Journal of the Optical Society of America A, 1985, 2(7): 1160–1169.
|
[10] |
Namuduri KR, Mehrotra R, Ranganathan N. Edge detection models based on Gabor filters. Proceedings of 11th IAPR International Conference on Pattern Recognition. Vol. III. Conference C: Image, Speech and Signal Analysis. The Hague: IEEE, 1992. 729–732.
|
[11] |
邱芳土, 李朝义. 同心圆感受野去抑制特性的数学模拟. 生物物理学报, 1995, 11(2): 214–220.
|
[12] |
Grigorescu C, Petkov N, Westenberg MA. Contour detection based on nonclassical receptive field inhibition. IEEE Transactions on Image Processing, 2003, 12(7): 729–739.
|
[13] |
桑农, 唐奇伶, 张天序. 基于初级视皮层抑制的轮廓检测方法. 红外与毫米波学报, 2007, 26(1):6.
|
[14] |
Tang QL, Sang N, Zhang TX. Extraction of salient contours from cluttered scenes. Pattern Recognition, 2007, 40(11): 3100–3109.
|
[15] |
Zeng C, Li YJ, Yang KF, et al. Contour detection based on a non-classical receptive field model with butterfly-shaped inhibition subregions. Neurocomputing, 2011, 74(10): 1527–1534.
|
[16] |
Yang KF, Li CY, Li YJ. Multifeature-based surround inhibition improves contour detection in natural images. IEEE Transactions on Image Processing, 2014, 23(12): 5020–5032.
|
[17] |
Hubel DH, Wiesel TN. Receptive fields, binocular interaction and functional architecture in the cat’s visual cortex. The Journal of Physiology, 1962, 160(1): 106–154.
|
[18] |
Chan W, Coghill G. Text analysis using local energy. Pattern Recognition, 2001, 34(12): 2523–2532.
|
[19] |
Li CY, Li W. Extensive integration field beyond the classical receptive field of cat’s striate cortical neurons—Classification and tuning properties. Vision Research, 1994, 34(18): 2337–2355.
|
[20] |
刘曙, 罗予频, 杨士元. 基于多尺度的轮廓匹配方法. 计算机工程, 2008, 34(1): 201–203.
|