非负矩阵分解(Non-negative Matrix Factorization,NMF)[1]算法因其收敛速度快以及分解后的稀疏分量能够清晰直观地描述原始数据等特点, 在计算机视觉, 文本聚类, 模式识别等领域受到了广泛关注. NMF本质上是一种基于部分的矩阵分解方法, 能够以非负形式表示原始数据的局部特征.
NMF将原始非负矩阵
基于正交子空间的非负矩阵分解虽然能在一定程度上提升分解矩阵的稀疏性, 但是它导致的稀疏程度是难以控制的. 本文为了在分解过程中进一步提升分解矩阵的稀疏性, 在分解过程中引入了L1范数约束, 将L1范数约束转换成目标函数的正则部分进行求解, 提出了L1范数约束正交子空间非负矩阵分解(Non-negative Matrix Factorization on Orthogonal Subspace with L1 norm constrains, NMFOS-L1). 本文方法不仅能提升聚类效果, 同时还提升了分解结果的稀疏表达能力, 具有实用价值.
2 非负矩阵分解给定非负矩阵
${\bf{X}} \approx {{\bf{W}}_{m \times r}}{{\bf{H}}_{r \times n}}$ | (1) |
其中,
$\begin{array}{l}\min f({\bf{W}},{\bf{H}}) = \left\| {{\bf{X}} - {\bf{WH}}} \right\|_F^2{\kern 1pt} \;\\\;{\rm {s.t.}}\;\;{\bf{W}},{\bf{H}} \ge 0\end{array}$ | (2) |
式中,
${\bf{H}} \leftarrow {\bf{H}} \otimes \frac{{({{\bf{W}}^{\rm T}}{\bf{X}})}}{{({{\bf{W}}^{\rm T}}{\bf{WH}})}}$ | (3) |
${\bf{W}} \leftarrow {\bf{W}} \otimes \frac{{({\bf{X}}{{\bf{H}}^{\rm T}})}}{{({\bf{WH}}{{\bf{H}}^{\rm T}})}}$ | (4) |
式中,
NMFOS将分解所得矩阵的正交性约束通过拉格朗日乘子引入到矩阵分解的目标函数中进行优化, 从而使分解结果的正交性不必通过正交性约束完成, 减少计算量. NMFOS的目标函数如下: 对矩阵
$\begin{array}{l}\mathop {{\rm{min}}}\limits_{{\bf{W}},{\bf{H}}} \;{J_{\rm {NMFOS}}} = \left\| {{\bf{X}} - {\bf{W}}{{\bf{H}}^{\rm T}}} \right\|_F^2 + \lambda \left\| {{{\bf{W}}^{\rm T}}{\bf{W}} - {\bf{I}}} \right\|_F^2\;\;\\{\rm {s.t.}}\;\;{\bf{W}},{\bf{H}} \ge 0\end{array}$ | (5) |
对矩阵
$\begin{array}{l}\mathop {{\rm{min}}}\limits_{{\bf{W}},{\bf{H}}} \;{J_{\rm {NMFOS}}} = \left\| {{\bf{X}} - {\bf{W}}{{\bf{H}}^{\rm T}}} \right\|_F^2 + \lambda \left\| {{\bf{H}}{{\bf{H}}^{\rm T}} - {\bf{I}}} \right\|_F^2\;\\\;{\rm {s.t.}}\;\;{\bf{W}},{\bf{H}} \ge 0\end{array}$ | (6) |
其中,
${\bf{W}} \leftarrow {\bf{W}} \otimes \frac{{{\bf{XH}} + 2\lambda {\bf{W}}}}{{{\bf{W}}{{\bf{H}}^{\rm T}}{\bf{H}} + 2\lambda {\bf{W}}{{\bf{W}}^{\rm T}}{\bf{W}}}}$ | (7) |
${\bf{H}} \leftarrow {\bf{H}} \otimes \frac{{{{\bf{W}}^{\rm T}}{\bf{X}}}}{{{{\bf{W}}^{\rm T}}{\bf{W}}{{\bf{H}}^{\rm T}}}}$ | (8) |
${\bf{W}} \leftarrow {\bf{W}} \otimes \frac{{{\bf{XH}}}}{{{\bf{W}}{{\bf{H}}^{\rm T}}{\bf{H}}}}$ | (9) |
${\bf{H}} \leftarrow {\bf{H}} \otimes \frac{{{{\bf{W}}^{\rm T}}{\bf{X}} + 2\lambda {{\bf{H}}^{\rm T}}}}{{{{\bf{W}}^{\rm T}}{\bf{W}}{{\bf{H}}^{\rm T}} + 2\lambda {{\bf{H}}^{\rm T}}{\bf{H}}{{\bf{H}}^{\rm T}}}}$ | (10) |
NMF算法的分解结果在一定程度上呈现稀疏性, 但是稀疏程度难以控制. Hoyer于2004年提出稀疏性非负矩阵分解[10], 在目标函数上添加L1正则化的稀疏约束. 如果对NMFOS加上正则化的稀疏约束, 那么就可以得到更加稀疏的分解矩阵, 从而提高分解质量.
通过引入稀疏约束条件到NMFOS的目标函数, 将稀疏约束正交子空间非负矩阵分解归结为下列优化问题: 对矩阵
$\begin{array}{l}{J_{\rm {NMFOS\;SC}}} = \left\| {{\bf{X}} - {\bf{WH}}} \right\|_F^2 + \lambda \left\| {{{\bf{W}}^{\rm T}}{\bf{W}} - {\bf{I}}} \right\|_F^2 + \alpha {\left\| {\bf{W}} \right\|_1}\;\;\\{\rm {s.t.}}\;\;{\bf{W}} \ge 0,{\bf{H}} \ge 0\end{array}$ | (11) |
对矩阵
$\begin{array}{l}{J_{\rm {NMFOS\;SC}}} = \left\| {{\bf{X}} - {\bf{WH}}} \right\|_F^2 + \lambda \left\| {{\bf{H}}{{\bf{H}}^{\rm T}} - {\bf{I}}} \right\|_F^2 + \beta {\left\| {\bf{H}} \right\|_1}\;\;\\{\rm {s.t.}}\;\;{\bf{W}} \ge 0,{\bf{H}} \ge 0\end{array}$ | (12) |
式中,
$\begin{array}{l}{J_{\rm {NMFOS\;SC}}} = Tr\left( {({\bf{X}} - {\bf{W}}{{\bf{H}}^{\rm T}}){{({\bf{X}} - {\bf{W}}{{\bf{H}}^{\rm T}})}^{\rm T}}} \right) \\\;\;\;\;\;\;\;\;\;\;\;+\lambda Tr\left( {({{\bf{W}}^{\rm T}}{\bf{W}} - {\bf{I}}){{({{\bf{W}}^{\rm T}}{\bf{W}} - {\bf{I}})}^{\rm T}}} \right) + \alpha {\left\| {\bf{W}} \right\|_1}\end{array}$ | (13) |
由Lagrange定理:
$\begin{array}{l}{J_{\rm {NMFOS\;SC}}} = Tr\left( {({\bf{X}} - {\bf{W}}{{\bf{H}}^{\rm T}}){{({\bf{X}} - {\bf{W}}{{\bf{H}}^{\rm T}})}^{\rm T}}} \right) \\\;\;\;\;\;\;\;\;\;\;+\lambda Tr\left( {({{\bf{W}}^{\rm T}}{\bf{W}} - {\bf{I}}){{({{\bf{W}}^{\rm T}}{\bf{W}} - {\bf{I}})}^{\rm T}}} \right)\; + \alpha {\left\| {\bf{W}} \right\|_1}\\\;\;\;\;\;\;\;\;\;\; + Tr\left( {\Psi {{\bf{W}}^{\rm T}}} \right) + Tr\left( {\Phi {{\bf{H}}^{\rm T}}} \right)\end{array}$ | (14) |
式中,
$\begin{array}{l}\displaystyle\frac{{\partial J}}{{\partial {\bf{W}}}} = {\bf{X}}{{\bf{H}}^{\rm T}} + {\bf{WH}}{{\bf{H}}^{\rm T}} - 2\lambda {\bf{W}}\;\\\;\;\;\;\;\;\;\;\;\;\;\; + 2\lambda {\bf{W}}{{\bf{W}}^{\rm T}}{\bf{W}} + \alpha {\bf{I}}\end{array}$ | (15) |
$\frac{{\partial J}}{{\partial {\bf{H}}}} = \Delta {{\bf{W}}^{\rm T}}{\bf{X}} + {{\bf{W}}^{\rm T}}{\bf{WH}}$ | (16) |
式中,
${\bf{W}} \leftarrow {\bf{W}} \otimes \frac{{{\bf{X}}{{\bf{H}}^{\rm T}} + 2\lambda {\bf{W}}}}{{{\bf{W}}{{\bf{H}}^{\rm T}}{\bf{H}} + 2\lambda {\bf{W}}{{\bf{W}}^{\rm T}}{\bf{W}} + \alpha {\bf{I}}}}$ | (17) |
${\bf{H}} \leftarrow {\bf{H}} \otimes \frac{{{{\bf{W}}^{\rm T}}{\bf{X}}}}{{{{\bf{W}}^{\rm T}}{\bf{WH}}}}$ | (18) |
同理可得式(12)的矩阵更新规则为:
${\bf{W}} \leftarrow {\bf{W}} \otimes \frac{{{\bf{X}}{{\bf{H}}^{\rm T}}}}{{{\bf{WH}}{{\bf{H}}^{\rm T}}}}$ | (19) |
${\bf{H}} \leftarrow {\bf{H}} \otimes \frac{{{{\bf{W}}^{\rm T}}{\bf{X}} + 2\lambda {\bf{H}}}}{{{{\bf{W}}^{\rm T}}{\bf{WH}} + 2\lambda {\bf{H}}{{\bf{H}}^{\rm T}}{\bf{H}} + \beta {\bf{I}}}}$ | (20) |
基于上述的乘性迭代规则, 可将NMFOS-L1算法归结为:
步骤1. 初始化: 输入矩阵
步骤2. 迭代更新: 将矩阵
步骤3. 终止条件: 若
为了验证NMFOS-L1算法有效性, 本文在手写体数字光学识别数据集(Optical Recognition of Handwriting Digits)[11]、ORL 人脸数据库[12]和Yale人脸数据库[13]进行了聚类的对比实验. 同时, 为了验证本文算法所得到的基矩阵的稀疏性, 在ORL和Yale人脸数据库进行实验, 比较了几种不同算法的稀疏表达能力.
手写体数字光学识别数据集: 该数据集从UCI数据库中选取0, 2, 4, 6几个数字, 构成2237个样本, 每个样本有62特征, 分为4个类. ORL人脸数据库[12]是由40个人, 每人10幅图像构成. 每幅图像为256个灰度级, 分辨率为
Yale人脸库[13]包含15个人每人11幅共165幅人脸图像, 这些照片在不同的光照条件和角度下拍摄, 人脸表情也有较大变化. 每幅图像均为
5.1 聚类实验
在聚类问题中, 常见的评测指标是纯度和F值. 本文在已知类标签情况下, 将不同算法的聚类结果进行对比, 利用纯度来评价不同算法产生的分类效果. 纯度: 所有簇的纯净度的均值. 范围为[0, 1], 数值越大, 纯净度越高, 效果越好. 定义式为:
$Purity = \frac{1}{n}\sum\limits_{k = 1}^P {\mathop {\max }\limits_{1 \leqslant l \leqslant q} \;n_k^l} $ | (21) |
式中,
$Entropy = \Delta \frac{1}{{n{{\log }_2}q}}\sum\limits_{k = 1}^P {\sum\limits_{l = 1}^q {n_k^l{{\log }_2}\frac{{n_k^l}}{{{n_k}}}} } $ | (22) |
式中,
在本节实验中设定
5.2 稀疏性对比实验
本节我们在ORL和Yale人脸数据库上进行人脸特征提取, 对比了NMF、ONMF、NMFOS、和本文NMFOS-L1几种算法的局部表达能力. 图3给出了秩为25时, 不同算法得到的基矩阵图像.
由图3可以看出, 在这两个数据库上对比这4种算法的基图像稀疏度, NMF稀疏度最低, NMFOS-L1的基图像最为稀疏, 换言之, 该算法具有最优的局部表达能力.
Hoyer在文献[9]中给出了度量向量稀疏度的函数:
${\rm{sparse}}(x) = \frac{{\sqrt n - {{(\sum {{{\left| x \right|}_i}} )} / {\sqrt {\sum {x_i^2} } }}}}{{\sqrt n - 1}}$ | (23) |
其中,
实验最后, 我们对矩阵分解结果的稀疏性进行对比. 从表3和表4中我们可以看到, 本文算法所得的基矩阵和稀疏矩阵更加稀疏, 本文算法的稀疏表达能力优于对比的几种算法.
6 结束语
针对正交子空间非负矩阵分解相对稀疏或局部化描述原数据时导致的稀疏能力和程度比较弱的问题, 本文将稀疏约束引入正交子空间非负矩阵分解的目标函数中, 提出稀疏约束正交子空间非负矩阵分解. 同时给出了迭代公式. 实验证明该算法具有更好的聚类效果以及稀疏表达能力, 在人脸特征提取领域具有应用潜力. 进一步提升正交子空间非负矩阵分解算法效率, 以及将本文方法推广应用到计算机视觉中都是我们进一步要研究的内容.
[1] |
Lee D, Seung HS. Learning the parts of objects by non-negative matrix factorization. Nature, 1999, 401(6755): 788-791. DOI:10.1038/44565 |
[2] |
Park CW, Park KT, Moon YS. Eye detection using eye filter and minimisation of NMF-based reconstruction error in facial image. Electronics Letters, 2010, 46(2): 130-132. DOI:10.1049/el.2010.3239 |
[3] |
Cai D, He X, Han J, et al. Graph regularized nonnegative matrix factorization for data representation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(8): 1548-1560. DOI:10.1109/TPAMI.2010.231 |
[4] |
An SC, Yoo J, Choi S. Manifold-respecting discriminant nonnegative matrix factorization. Pattern Recognition Letters, 2011, 32(6): 832-837. DOI:10.1016/j.patrec.2011.01.012 |
[5] |
Ye J, Jin Z. Non-negative matrix factorisation based on fuzzy K nearest neighbour graph and its applications. Computer Vision, 2013, 7(5): 346-353. DOI:10.1049/iet-cvi.2013.0055 |
[6] |
Zhang T, Fang B, Tang YY, et al. Topology preserving non-negative matrix factorization for face recognition. IEEE Transactions on Image Processing, 2008, 17(4): 574-584. DOI:10.1109/TIP.2008.918957 |
[7] |
Yang ZR, Laaksonen J. Multi-plicative updates for non-negative projections. Neurocomputing, 2007, 71(1–3): 363-373. DOI:10.1016/j.neucom.2006.11.023 |
[8] |
Li Z, Wu XD, Peng H. Nonnegative matrix factorization on orthogonal subspace. Pattern Recognition Letters, 2010, 31(9): 905-911. DOI:10.1016/j.patrec.2009.12.023 |
[9] |
Lee DD, Seung HS. Algorithms for non-negative matrix factorization. Advanced in Neural Information Processing Systems. 2001. 556–562.
|
[10] |
Hoyer PO. Non-negative sparse coding. Proceedings of Neural Networks for Signal Processing. 2002. 557–565.
|
[11] |
Yang ZR, OJA E. Linear and nonlinear projective nonegative matrix factorization. Signal Processing, 2007, 87(8): 1904-1916. DOI:10.1016/j.sigpro.2007.01.024 |
[12] |
Samaria FS, Harter AC. Parameterisation of a stochastic model for human face identification. Proceedings of the Second IEEE Workshop on Applications of Computer Vision. Sarasota, FL, USA. 1994. 138–142. [doi: 10.1109/ACV.1994.341300]
|
[13] |
Georghiades AS, Belhumeur PN, Kriegman DJ. From few to many: Illumination cone models for face recognition under variable lighting and pose. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 26(6): 643-660. DOI:10.1109/34.927464 |