聚类分析是数据挖掘和人工智能领域中一种重要的数据处理技术, 其目的是根据未标记的数据点的内在相似性, 将其划分为相应的簇[1]. 聚类分析作为无监督学习中的一项基本任务, 在图像处理、数据挖掘等众多领域具有广泛的应用前景. 传统的聚类方法包含子空间聚类[1]、谱聚类[1]和K-means聚类[2]等. 近年来, 也有学者提出基于深度学习的聚类方法, 但目前这类方法通常用于处理传统的单视角数据. 多视角数据对象由多个视角的数据实例组成, 不同视角间存在一致性和互补性关系, 仅直接采用传统的单视角聚类方法, 无法有效挖掘多视角数据所包含的丰富信息. 因而, 近年来出现了一些多视角聚类方法. 其中Wang等人[3]考虑到不同视角的权重问题, 提出一种基于图的多视角聚类算法(GMC), 该方法首先将每个视角的数据矩阵转换为由相似度图矩阵构成的图矩阵, 其次将它们进行融合生成统一的图矩阵. GMC自动为每个视角分配权重, 共同学习每个视角的图矩阵和融合图, 并在融合后直接生成最终的簇. Tang等人[4]提出基于联合潜在表示和相似性学习的多视角聚类方法(LALMVC), 用于解决相似性矩阵无法有效表示数据内在几何结构与数据间邻域关系的问题. LALMVC首先学习各视角共享数据的潜在表示, 然后在数据的潜在表示中利用流形学习自适应地获得相似性矩阵, 从而较好描述数据几何关系. 由于多视角的一致性与特定性通常无法共同用于子空间表示的学习过程, Luo等人[5]提出一致与特定多视角子空间聚类方法(CSMSC). 该方法使用一个共享的一致性表示与一组特定性表示描述多视角自表示属性. 其中一致性用于描述所有视角间的共同特性, 而特定性用于捕获每个视角的内在差异. Zheng等人[6]通过挖掘局部和全局图信息并将其融合, 用于约束子空间表示学习过程. 由于该方法缺乏对自表达系数矩阵的监督过程, 不能学到很好的特征表示. 因此可以使用聚类标签监督自表达模块的训练, 以获得更好的聚类效果.
基于上述问题, 本文提出一种基于图信息的自监督子空间聚类方法, 用来自监督式地挖掘多视角数据的潜在图信息. 本文的主要贡献包含: (1)通过添加图正则化项获得更好的潜在空间表示; (2)通过在目标函数中添加自监督规范化项, 实现聚类标签对自表达系数学习过程的监督.
1 相关工作 1.1 子空间聚类子空间聚类旨在从多个子空间组成的数据中揭示固有的簇结构. 现有的子空间聚类方法主要集中于构造好的自表达系数矩阵, 然后学习良好的亲和矩阵并进行谱聚类, 其中具有代表性的方法包括深度子空间聚类(DSCN)[7]、稀疏子空间聚类(SSC)[8]和超完全深度子空间聚类(ODSC)[9]. DSCN设计一种新的无监督子空间聚类深度神经网络. 该架构建立在深度自编码器上, 非线性地将输入数据映射到潜在空间. 在编码器和解码器之间引入一种新的自表达层模拟在传统子空间聚类中被证明有效的“自表达性”特性. SSC通过对自表达系数矩阵添加
传统的单视角子空间聚类处理多视角数据只是进行简单的特征拼接, 容易造成维度灾难等问题. 多视角子空间聚类以单视角子空间聚类为基础, 分别处理每个视角的特征. 在互补性原则和一致性原则[10]的辅助下, 多视角子空间聚类建立不同视角间的联系并进行信息交互, 克服了单视角子空间聚类划分多视角数据的问题. 潜在多视角子空间聚类(LMSC)[11]从多个视角探索潜在的互补信息, 利用多个视角的互补性, 潜在表示比每个视角更全面地描述数据, 从而使子空间表示更准确和稳健. 多视角深度子空间聚类(MDSC)[12]由两个子网络组成, 且分别完成所有视角的公共自表示矩阵和特定视角的自表示矩阵的学习. 该方法通过引入希尔伯特•施密特独立标准作为多样性正则化项, 将每个视角的自表示矩阵与公共的自表示矩阵对齐, 从而取得了较好的聚类效果.
1.3 自监督学习监督学习和无监督学习是机器学习两种基本的学习范式, 而自监督学习是使用无标注数据自我监督的方式开展学习, 其归类于无监督学习的范畴. 自监督学习[13]的思想较为简单, 即输入的无监督数据通过数据本身的结构或者特性, 构造伪标签(pseudo label)出来. 有了标签以后就可以类似监督学习一样进行训练. 近年来, 有学者试图将自监督学习与多视角子空间聚类相结合, 获得构造的伪标签后对整体网络进行训练. 自监督卷积子空间聚类网络(S2ConvSCN)[14]通过聚类标签监督每个特定视角的潜在表示学习过程和多个视角的公共潜在子空间表示学习过程, 实现数据的自监督目的. 多视角聚类中的自监督判别特征学习(SDMVC)[15]应用深度自编码器独立学习每个视角的嵌入式特性, 并利用多视角互补信息连接所有视角的嵌入特性, 形成全局特性. 以一种自监督的方式, 获得伪标签建立统一的目标分布并执行多视角判别特征学习. 这种统一的目标分布可实现多个视角一致性与多样性.
2 基于图信息的自监督多视角子空间聚类基于图信息的自监督多视角子空间聚类网络结构如图1所示. 该网络结构由多视角卷积自编码器、自表达模块、图正则化模块和谱聚类模块4部分组成, 其中多视角卷积自编码器又分为多视角卷积自编码器和多视角卷积自解码器. 假设n个样本共k个视角, 给定一个多视角数据集
(1)重构损失
数据在潜在空间中的表示应包含原始数据的主要信息, 将原始数据输入解码器网络以获得重构数据. 编码器—解码器网络的优化目标为最小化重构损失, 如下式:
$ {\ell _1} = \frac{1}{2}\sum\limits_{k = 1}^v {\left\| {{{\boldsymbol{X}}^k} - \widehat {{{\boldsymbol{X}}^k}}} \right\|} _F^2 $ | (1) |
其中,
(2)自表达损失
基于数据的自表达性质, 即同一子空间中的每个数据点都可以近似表示为其他数据点的线性组合, 为了寻找蕴含在数据中的子空间结构, 自表达模块的损失函数如下:
$ {\ell _2} = \frac{1}{2}\sum\limits_{k = 1}^v {\left\| {{{\boldsymbol{Z}}^k} - {{\boldsymbol{Z}}^k}{\boldsymbol{C}}} \right\|_F^2} $ | (2) |
其中,
(3)图正则化损失
通过网络结构可以看到, 需要添加一个特定的约束来指导C的聚类学习过程, Zheng等人[16]通过添加一个图正则化项用来捕获多视角数据的局部信息和全局信息. 一阶相似度定义为两个数据点间的局部成对相似性, 而二阶相似性则定义为两个数据点的全局网络结构的相似性. 对于第k个视角来说, 第i个数据点和第j个数据点之间的相似度就是
$ {{\boldsymbol{A}}^k} = \left\{ \begin{array}{l} \exp \left( - \dfrac{{\left\| {{\boldsymbol{X}}_i^k - {\boldsymbol{X}}_j^k} \right\|_2^2}}{{{\sigma ^2}}}\right),\; {\rm{if}} \;\; {\boldsymbol{X}}_j^v\;\; {\rm are} \;\; mkNN\\ 0 , \qquad\qquad\quad \;\;\;\;\;\;\;\;\;\;\;\;{\rm otherwise} \\ \end{array} \right. $ | (3) |
其中,
$ \widehat {{{\boldsymbol{A}}^k}} = \left\{ \begin{array}{l} \exp \left( - \dfrac{{\left\| {{\boldsymbol{A}}_i^k - {\boldsymbol{A}}_j^k} \right\|_2^2}}{{{\sigma ^2}}}\right) , {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\rm if} {\kern 1pt} {\boldsymbol{A}}_i^v {\kern 1pt} {\kern 1pt} {\rm and}{\kern 1pt} {\kern 1pt} {\boldsymbol{A}}_j^v {\kern 1pt} {\kern 1pt} {\rm are}{\kern 1pt} {\kern 1pt} mkNN \\ 0 , \qquad\qquad\qquad\quad\;\;\;\; {\rm otherwise} \\ \end{array} \right.$ | (4) |
其中,
$ {\boldsymbol{A}} = \mathop \odot \limits_{k = 1}^v {{\boldsymbol{A}}^k} + \mathop \odot \limits_{k = 1}^v \widehat {{{\boldsymbol{A}}^k}} $ | (5) |
其中,
$ {\ell _3} = \frac{1}{2}\sum\limits_{i, j} {{{\boldsymbol{A}}_{ij}}} \left\| {{{\boldsymbol{C}}_i} - {{\boldsymbol{C}}_j}} \right\|_2^2 = Tr({{\boldsymbol{C}}^{\rm T}}{\boldsymbol{LC}}) $ | (6) |
(4)自监督损失
获得自表达系数矩阵后, 可得到亲和矩阵
$ \mathop {{\rm{min}}}\limits_Q \sum\limits_{i,j} {{w_{ij}}} \left\| {{{\boldsymbol{q}}_i} - {{\boldsymbol{q}}_j}} \right\|_2^2{\rm{, }}\;\;\;{\rm s.t.}\;{\boldsymbol Q} \in {{\boldsymbol Q}} $ | (7) |
其中,
$ {\ell _4} = \frac{1}{2}\sum\limits_{i, j} {{w_{ij}}\left\| {{{\boldsymbol{q}}_i} - {{\boldsymbol{q}}_j}} \right\|} _2^2 $ | (8) |
最后, 综合式(1)、式(2)、式(6)与式(8), 得到SMSC网络的总体目标函数:
$ \ell = {\ell _1} + {\lambda _1}{\ell _2} + {\lambda _2}{\ell _3} + {\lambda _3}{\ell _4} $ | (9) |
其中,
本文所提出的方法在4个标准的真实数据集上进行了广泛的实验. 其中, Yale Face包含15个人的面部图像, 共165张. ORL包含40个人的面部图像, 共400张. Yale Face和ORL数据集的每个图像都由3个特征来描述: intensity、LBP和Gabor. 而且每张图像的面部表情、光线强弱都是不同的. MSRCV1数据集是由从7个簇中收集的210个图像样本组成, 每张图像由6个特征来描述: CENT、CMT、GIST、HOG、LBP和SIFT. BBC数据集由英国广播公司的685份文本文件组成, 每份文件分为4个子部分.
本文采用了4种评价指标[11]来评估算法的聚类效果, 分别是归一化互信息(NMI)、准确率(ACC)、F-度量值(F-Measure)和兰德指数(RI).
3.2 对比实验表1–表4分别表示在Yale Face、ORL、MSRCV1和BBC数据集上不同算法的聚类实验结果, 其中加粗的数据表示在该组对比实验中得到的最优结果.
结果表明, 本文所提出的SMSC相较于其他对比方法获得了更好的聚类结果. 与传统的多视角子空间聚类方法相比, SMSC取得了显著的改进. 从表1中可以看出, 在Yale Face数据集上, SMSC与LMSC相比, NMI和ACC指标分别提升了20.56%和25.84%, 说明SMSC的效果是更好的一方. 在另外3个数据集上, 相比其他多视角算法, SMSC也都有显著的提升. SMSC首先挖掘数据的潜在信息, 其次通过自表达系数矩阵获得相似性矩阵并在其上应用谱聚类, 获得聚类标签信息后, 通过自监督规范化项对自表达系数矩阵进行监督, 获得更好的聚类效果.
3.3 收敛性实验
以Yale Face数据集上的实验为例. 图2显示了标准化损失和聚类结果指标(NMI和ACC)随着迭代次数增加的变化情况. 可以很明显的看出, SMSC具有较快的收敛速度.
4 结论
本文提出一种基于图信息的自监督多视角子空间聚类方法, 该方法自监督式地挖掘多视角数据的潜在信息, 提升聚类效果. 通过在4个标准数据集上的大量实验验证, 结果表明所提方法优于几种常用的多视角聚类方法.
[1] |
章永来, 周耀鉴. 聚类算法综述. 计算机应用, 2019, 39(7): 1869-1882. DOI:10.11772/j.issn.1001-9081.2019010174 |
[2] |
杨俊闯, 赵超. K-Means聚类算法研究综述. 计算机工程与应用, 2019, 55(23): 7-14, 63. DOI:10.3778/j.issn.1002-8331.1908-0347 |
[3] |
Wang H, Yang Y, Liu B. GMC: Graph-based multi-view clustering. IEEE Transactions on Knowledge and Data Engineering, 2020, 32(6): 1116-1129. DOI:10.1109/TKDE.2019.2903810 |
[4] |
Tang C, Zhu XZ, Liu XW, et al. Learning a joint affinity graph for multiview subspace clustering. IEEE Transactions on Multimedia, 2019, 21(7): 1724-1736. DOI:10.1109/TMM.2018.2889560 |
[5] |
Luo SR, Zhang CQ, Zhang W, et al. Consistent and specific multi-view subspace clustering. Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans: AAAI, 2018. 3730–3737.
|
[6] |
Zheng QH, Zhu JH, Ma YY, et al. Multi-view subspace clustering networks with local and global graph information. Neurocomputing, 2021, 449: 15-23. DOI:10.1016/j.neucom.2021.03.115 |
[7] |
Ji P, Zhang T, Li HD, et al. Deep subspace clustering networks. Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach: ACM, 2017. 23–32.
|
[8] |
Elhamifar E, Vidal R. Sparse subspace clustering: Algorithm, theory, and applications. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(11): 2765-2781. DOI:10.1109/TPAMI.2013.57 |
[9] |
Valanarasu JMJ, Patel VM. Overcomplete deep subspace clustering networks. 2021 IEEE Winter Conference on Applications of Computer Vision. Waikoloa: IEEE, 2021. 746–755.
|
[10] |
何士豪, 张玉龙, 唐启凡. 互补与一致的多视角子空间聚类网络. 西安交通大学学报, 2021, 55(7): 166-178. |
[11] |
Zhang CQ, Hu QH, Fu HZ, et al. Latent multi-view subspace clustering. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu: IEEE, 2017. 4333–4341.
|
[12] |
Zhu PF, Hui BY, Zhang CQ, et al. Multi-view deep subspace clustering networks. arXiv: 1908.01978, 2019.
|
[13] |
Radford A, Metz L, Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks. arXiv: 1511.06434, 2015.
|
[14] |
Zhang JJ, Li CG, You C, et al. Self-supervised convolutional subspace clustering network. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach: IEEE, 2019. 5468–5477.
|
[15] |
Xu J, Ren YZ, Tang HY, et al. Self-supervised discriminative feature learning for Multi-view clustering. arXiv: 2103.15069, 2021.
|
[16] |
Zheng QH, Zhu JH, Li ZY, et al. Consistent and complementary graph regularized multi-view subspace clustering. arXiv: 2004.03106, 2020.
|