Self-supervised Learning and Multi-scale Spatio-temporal Feature Fusion for Video Quality Assessment
-
摘要: 面对视频质量评估领域标记数据不足的问题, 研究者开始转向自监督学习方法, 旨在借助大量未标记数据来学习视频质量评估模型. 然而现有自监督学习方法主要聚焦于视频的失真类型和视频内容信息, 忽略了视频随时间变化的动态信息和时空特征, 这导致在复杂动态场景下的评估效果不尽人意. 针对上述问题, 提出了一种新的自监督学习方法, 通过播放速度预测作为预训练的辅助任务, 使模型能更好地捕捉视频的动态变化和时空特征, 并结合失真类型预测和对比学习, 增强模型对视频质量差异的敏感性学习. 同时, 为了更全面捕捉视频的时空特征, 进一步设计了多尺度时空特征提取模块等以加强模型的时空建模能力. 实验结果显示, 所提方法在LIVE、CSIQ以及LIVE-VQC数据集上, 性能显著优于现有的基于自监督学习的方法, 在LIVE-VQC数据集上, 本方法在PLCC指标上平均提升7.90%, 最高提升17.70%. 同样, 在KoNViD-1k数据集上也展现了相当的竞争力. 这些结果表明, 本文提出的自监督学习框架有效增强视频质量评估模型的动态特征捕捉能力, 并在处理复杂动态视频中显示出独特优势.Abstract: Faced with insufficient labeled data in the field of video quality assessment, researchers begin to turn to self-supervised learning methods, aiming to learn video quality assessment models with the help of large amounts of unlabeled data. However, existing self-supervised learning methods primarily focus on video distortion types and content information, while ignoring dynamic information and spatiotemporal features of videos changing over time. This leads to unsatisfactory evaluation performance in complex dynamic scenes. To address these issues, a new self-supervised learning method is proposed. By taking playback speed prediction as an auxiliary pretraining task, the model can better capture dynamic changes and spatiotemporal features of videos. Combined with distortion type prediction and contrastive learning, the model’s sensitivity to video quality differences is enhanced. At the same time, to more comprehensively capture the spatiotemporal features of videos, a multi-scale spatiotemporal feature extraction module is further designed to enhance the model’s spatiotemporal modeling capability. Experimental results demonstrate that the proposed method significantly outperforms existing self-supervised learning-based approaches on the LIVE, CSIQ, and LIVE-VQC datasets. On the LIVE-VQC dataset, the proposed method achieves an average improvement of 7.90% and a maximum improvement of 17.70% in the PLCC index. Similarly, it also shows considerable competitiveness on the KoNViD-1k dataset. These results indicate that the proposed self-supervised learning framework effectively enhances the dynamic feature capture ability of the video quality assessment model and exhibits unique advantages in processing complex dynamic videos.
-
随着社交媒体和视频分享平台的飞速发展, 用户生成的视频内容呈现出爆炸式增长. 这些视频的质量受到多方面因素的制约, 包括存储、传输和播放过程中可能引发的质量退化等[1]. 因此, 对视频内容进行质量评估已成为计算机视觉领域的一个重要任务, 以确保用户能够获得良好的观看体验. 视频质量评估(video quality assessment, VQA)可分为主观和客观两种方法. 主观评估基于人类的观察和感知, 结果准确但成本高且难以实时应用. 因此, 本文主要考虑使用客观质量评估. 这种方法不需要人类评估, 而是使用算法自动评估视频质量. 客观质量评估算法按照对参考视频的使用程度可以分为3类: 全参考视频质量评估(full-reference VQA, FR-VQA)[2,3]、半参考视频质量评估(reduced-reference VQA, RR-VQA)[4]和无参考视频质量评估(no-reference VQA, NR-VQA)[5–15]. 目前, 许多视频由于网络传输或者用户拍摄水平等因素的限制, 导致无失真的原始参考视频几乎无法获取, 因此不依赖原始参考视频, 直接基于失真视频进行质量评估的无参考视频质量评估显得尤为重要, 它也是目前研究人员研究的重点.
传统的 NR-VQA 依赖有监督学习方法, 通过标记数据集训练模型. 然而, 标记数据集的获取费时又昂贵, 且难以全面覆盖多样化的视频质量问题. 自监督学习因能利用大量未标记数据而日益受到关注. 自监督学习的核心思想在于设定辅助任务生成伪训练标签, 这使得模型能在无需人工标注的情况下进行训练[16]. 这种方法的优势在于, 研究人员可以使用大量的公开视频数据对模型进行训练和优化. 近年来, 基于自监督学习的VQA的方法[17–20]取得了一定的进展. 文献[17]提出使用对比学习的方式对视频质量评估任务进行自监督预训练, 文献[20]的模型则受到了自监督图像质量评估模型CONTRIQUE[21]的启发, 将失真类型识别和失真程度确定作为其训练的辅助任务来预训练VQA模型. 文献[20]通过结合失真程度、失真类型和帧率的自监督信息来捕捉视频的特征. 然而, 这些方法忽略了视频的时空特性和动态特征, 这限制了它们在处理复杂动态场景时的表现. 尽管一些工作[18,20]尝试整合更多信息以改善这种局限性, 但仍然难以全面捕捉视频的所有关键动态特征.
在此背景之下, 本项研究创新地提出了基于自监督学习与多尺度时空特征融合的视频质量评估方法. 首次将播放速度这一新维度作为自监督信号, 以探索视频的深层时空信息. 具体而言, 本文通过对视频帧间隔采样以模拟不同播放速度, 并自动生成对应的播放速度标签. 通过构造不同播放速度的视频丰富了视频内容随时间变化的细节, 强制模型识别和理解视频在不同速度下的表现, 极大地丰富了模型对视频时空结构的理解, 使其能够识别复杂的时空特性. 相较而言, 传统的帧率预测方法主要关注视频的整体流畅性, 难以捕捉细微的动态变化. 除此之外, 本文还通过融合对比学习策略以进一步强化视频特征的表示能力. 通过结合播放速度预测任务和对比学习充分挖掘视频的时空特征, 突破了传统自监督学习仅关注于视频的失真类型、失真程度或帧率等单一属性的局限, 为视频质量评估任务提供了更加全面、可靠的视频特征表示. 同时, 为了提高VQA模型在感知范围和时空建模方面的性能, 本文设计了多尺度时空特征提取模块提取时空特征, 并通过SimAM注意力机制[22]提高模型对关键特征的关注度. 此外, 本文还引入了Swin Transformer[23]进一步提升空间特征的编码效率和准确性, 以全面提高模型的时空特征处理能力, 从而提高视频质量评估的准确性和鲁棒性. 在两个真实失真数据集和两个合成失真数据集上的实验结果验证了本文自监督学习策略的有效性, 也展示了本文所提方法在动态视频质量评估上的潜力.
1. 本文方法
本文所提方法的整体框架如图1所示. 首先将原始样本和失真样本分别输入到VQA模型, 然后通过3个自监督辅助任务对VQA模型进行预训练. 该方法旨在通过自监督学习提高VQA模型在捕捉视频质量相关特征方面的能力, 以便更准确地判断视频内容的质量. 为了实现这个目的, 本文首先构建了一个大规模的数据集, 并生成自注意标签, 作为自监督学习的基础. 在模型的自监督预训练阶段, VQA模型通过预测播放速度、预测失真类型以及对比学习这3个自监督任务进行预训练. 自监督数据集的构建方法将在第1.1节介绍. 本文所使用的3个自监督任务将在第1.2节中详细阐述. 继预训练之后, 再使用公共VQA数据集对模型进行微调, 使模型能够提供更准确的视频质量评分. 整体模型将在第2节中进行详细说明.
1.1 自监督数据集准备
在视频质量评估任务中, 获取大量精确标注的数据既昂贵又耗时, 尤其是在手动标注视频的平均意见得分 (mean opinion score, MOS)时, 人力和时间成本极高. 为解决这一问题, 本文研究采用自监督学习, 通过自动生成标签以减少对人工标注的依赖. 首先, 从YouTube-8M数据库中筛选出310个视频, 并对这些视频应用5种失真处理, 包括高斯模糊、对比度调整、H.264压缩、运动模糊和高斯噪声. 这些失真类型将在模型预训练阶段将作为自监督标签, 用于失真预测任务.
考虑到播放速度预测对深入探索视频深层时空信息的重要性, 该研究通过视频帧间隔采样的方法自动生成播放速度标签以模拟不同的播放速度. 具体实现方式如下: 首先, 定义一个变量sample_rate, 取值为{1, 2, 3, 4}. 然后, 从中随机取一个数字代表播放速度, 如果我们选择的播放速度为1, 那么就代表是正常的播放速度, 训练片段从原始样本中连续采样即可; 如果sample_rate>1, 则训练片段每隔sample_rate帧采样1次. 最后, 播放速度标签通过sample_rate–1得到, 将范围映射到[0, max_sr–1], max_sr代表随机生成的播放速度的最大值. 这样, 播放速度标签即表示播放速度用于预训练模型.
最终, 将得到一个完整的自监督数据集用于预训练VQA模型. 该数据集包含了失真类型和播放速度在内的标签, 提供了必要的监督信息, 为后续模型的有效训练提供了数据基础.
1.2 自监督辅助任务
该研究引入了一种创新的自监督学习框架, 使用播放速度预测、失真类型预测以及对比学习作为辅助任务. 具体地, 播放速度预测任务迫使模型注意视频内容随时间的变化, 提高模型捕捉视频动态变化和时空特征的能力, 失真类型预测和对比学习任务则加强了模型在不同失真条件下的特征区分能力, 增强了模型对视频差异的敏感性学习. 这3个任务各自解决特定问题的同时也相互补充, 共同构成一个强大的多任务自监督学习框架, 显著提升了VQA模型在各种场景下的性能和泛化能力.
1.2.1 预测失真类型
在视频质量评估任务中, 识别和预测失真类型是至关重要的, 因为它直接关联到视频质量的感知和评价. 虽然在原始视频上添加的失真类型是确定的, 但原始视频是从YouTube-8M中随机提取的, 可能存在未知失真. 因此, 为了避免未知失真影响失真预测的准确性, 该研究聚焦于原始视频
Videoori 与其失真版本Videodis 之间的时空信息差异, 并利用这些差异以预测失真视频的失真类型, 从而提高VQA模型对失真类型的预测能力. 基于此, 本文使用暹罗网络Siamese(⋅) 处理失真样本和原始样本. 该方法的优势在于可以利用原始样本和失真样本之间的差异信息Feadiff 预测失真类型, 使得模型能够较好地适应其他类型的失真, 而不仅依赖于单独的原始样本或失真样本的特征, 如式(1)所示:{Feadiff=Siamese(Videoori)−Siamese(Videodis)d′=FC(Feadiff) (1) 其中,
Siamese(Videoori) 和Siamese(Videodis) 代表通过暹罗网络提取的特征, 将得到的差异信息输入到全连接层中, 得到预测的失真类型的概率d′ .1.2.2 预测播放速度
本文选择播放速度预测作为预训练阶段的自监督任务, 旨在促进模型对视频内容信息及其时空特性的深入理解. 本文认为只有模型理解了视频内容并且学到了整体的时空特征表示才能够准确地预测播放速度. 由于播放速度预测任务不需要考虑原始样本和失真样本之间的差异. 因此, 在预测播放速度时, 本文仅使用原始样本
Videoori 作为输入:p′=FCpace(Siamese(Videoori)) (2) 其中,
p′ 代表通过本文的模型预测得到的播放速度的概率,FCpace 代表用于预测播放速度的全连接网络.预测失真类型和预测播放速度这两个辅助任务都采用交叉熵损失函数.
ldis=−N−1∑i=0di(lneˆdiN−1∑j=0eˆdj) (3) lpace =−M−1∑i=0pi(lneˆpiM−1∑j=0eˆpj) (4) 其中,
d 是失真类型标签,ˆd 是失真类型预测值, N是所有失真类型的数量,p 代表播放速度标签,ˆp 是播放速度预测值, M是所有播放速度类型的数量.ldis 是用于进行失真类型预测的损失函数,lpace 是用于进行播放速度预测的损失函数.1.2.3 对比学习
为了有效提取原始样本与失真样本中的信息, 并确保模型能清晰区分二者, 本文采用了一种结合对比学习和余弦相似度的方法. 通过对这两类样本分别实施对比学习, 模型能够学习各自的独特特征, 同时引入余弦相似度增强对二者差异的识别能力.
在原始样本的对比学习中, 本文采用数据增强技术, 如裁剪、翻转等, 获取原始样本的两个不同增强版本, 并将其定义为正样本对, 不同原始样本定义为负样本对, 其目标是使模型能够将原始样本的正样本对的特征拉近, 负样本对的特征拉远. 与先前工作[17]类似, 该研究采用了InfoNCE损失函数[24], 该函数已被证明能有效地在表示学习中增强正样本之间的相似性, 并将负样本分开, 具体的损失函数定义如式(5):
lcon_org=−lnexp(sim(zo,zo′)/T)2N∑k=11[k≠o]exp(sim(zo,zk)/T) (5) 其中,
zo 和zo′ 分别代表同一原始样本不同增强版本的特征表示.sim(⋅) 用来计算两者的相似性. T是温度参数, 此外1[k≠o] 是指示函数, 当k≠o 时, 取值为1, 否则为0. 这确保了在求和时不会考虑与自身的相似度.接着, 本文对失真样本进行对比学习, 旨在帮助模型更好的理解失真样本的特征. 与处理原始样本的方法类似, 将失真样本的正样本对拉近, 负样本对推远. 因此, 对于失真样本本文定义了如式(6)的损失函数:
lcon_dis =−lnexp(sim(zd,zd′)/T)2N∑k=11[k≠d]exp(sim(zd,zk)/T) (6) 其中,
zd 和zd′ 分别代表同一失真样本不同增强版本的特征表示.sim(⋅) 用来计算两者的相似性.1[k≠d] 代表指示函数, 当k≠d 时, 取值为1, 否则为0.通过最小化上述的两个损失函数, 可以促使模型更加准确地识别并区分原始样本与失真样本中的特征. 这样的优化策略不仅增强了模型在原始数据上的表现, 而且提高了其对失真数据的稳健性.
随后, 本文添加了一个新的损失函数, 以进一步加强模型对原始和失真样本的区分能力, 该损失函数的目标是最小化原始样本和其对应的失真样本之间的余弦相似度, 拉远它们在特征空间中的距离. 具体而言, 原始样本和失真样本之间的新损失
ldistance 定义如式(7):ldistance=zo⋅zd∥zo∥∥zd∥ (7) 其中,
zo 和zd 分别表示经过编码后的原始样本及其对应失真样本的特征向量.本文自监督预训练的最终任务就是最小化整体目标函数
Ltotal :Ltotal=ldis+lpace+α⋅lcon_org+β⋅lcon_dis+γ⋅ldistance (8) 使用失真类型预测、对比学习和播放速度预测作为辅助任务为模型提供了丰富和多样性的学习目标, 这种多任务学习策略允许模型从不同角度捕获数据的内在结构, 从而更全面地理解其背后的模式. 预测失真类型这一辅助任务指导模型学习到不同类型失真的特征表示, 对比学习使模型充分学习了样本之间的相似性和差异性, 预测播放速度这一辅助任务使模型能够捕捉视频中的动态变化和时序特征. 这些优势有助于提高模型的性能, 使其更加适应实际应用中的挑战.
2. 基于多尺度时空融合的视频质量评估模型
本文提出的整体模型如图2所示. 整体模型由经过自监督预训练的VQA模型以及线性回归层组成. 首先, 通过多尺度时空特征提取模块提取视频的时空特征. 随后, 引入SimAM注意力机制[22]来提高模型对关键特征的关注度. 接着, 使用Swin Transformer的编码器部分对视频帧内的空间特征进行更深层次的建模. 最后, 通过线性回归模型, 将提取的高级特征映射为视频质量评分.
在本文提出的视频质量评估模型中, 首先设计了一个多尺度时空特征提取模块, 该模块首先利用3D-CNN对视频输入进行处理, 以有效地捕获视频的时空特征
Fts . 3D-CNN通过在时间维度上进行卷积操作, 能够同时处理视频帧的空间信息和时间序列信息, 从而帮助模型更好地理解视频的动态变化和时序关系. 在此基础上, 我们使用ResNet50[25]作为多尺度时空特征提取模块的一部分, 进一步提取时空特征. 具体而言, 从ResNet50的最后4层提取特征后, 这些特征通过1×1卷积操作进行处理, 以统一不同特征层级的通道数, 随后通过上采样操作将低分辨率的深层特征图尺寸增大, 并与高分辨率的浅层特征图逐元素相加进行融合. 经过上采样后, 各层特征通过自适应平均池化操作映射到相同的尺度, 最后, 将这些经过自适应池化的各层特征进行拼接, 从而得到最终的多尺度时空特征表示. 该多尺度时空特征提取模块通过结合3D-CNN和多尺度架构, 不仅能够提取视频的动态时序特征, 还能在不同空间尺度上捕捉细节信息, 为模型提供了丰富的时空特征表示. 此外, 模型引入了SimAM注意力机制[22]以有选择性的关注视频中的关键信息, 进一步增强特征的代表性和区分性. 经过多尺度时空特征提取模块和SimAM注意力机制的处理后, 得到了增强后的特征Fen , 该特征充分考虑了视频中各个尺度和关键帧的信息.此外, 为了进一步提高空间特征编码的效率和准确性, 本文在模型中集成了Swin Transformer. 该模块主要用于对多尺度时空特征提取模块输出的时空特征进行深层建模. Swin Transformer 通过其分层和窗口化的架构, 不仅提高了处理视频帧空间特征的效率, 还增强了模型对帧内复杂结构的识别能力. 这种架构特别适合处理大规模视频数据, 既提高了计算效率, 又全面捕捉了视频的时空特征. 随后将增强后的特征
Fen 输入到 Swin Transformer 编码器中, 以提取出深层次的特征Ffinal . 通过多尺度时空特征提取模块、注意力机制等模块结合使用, 最终得到的特征Ffinal 能够更全面地理解视频的时空特性, 从而提高视频质量评估的整体准确性.在整个特征提取模块得到最终特征
Ffinal 后, 需要将这些特征映射到具体的质量分数. 为了实现这一映射, 本文选择了线性回归模型, 这是因为它的简单性和对于此任务的有效性. 本文使用一个单层全连接网络作为回归模型, 其具有单个输出神经元, 用于直接预测视频的质量分数. 视频质量分数计算如下:Qpred=FC(Ffinal) (9) 在模型微调阶段, 首先加载预训练好的模型权重, 然后使用公共数据集进行微调, 以使模型能够更好地适应具体任务和数据集. 微调过程中, 采用可微分的PLCC损失函数[26]来调整模型参数, 以提高模型在预测视频质量方面的精确性和一致性, 从而在最终的测试中获得更优的结果. 微调的损失函数如式(10)所示:
loss=(1−PLCC(Qpred,Qgt))2 (10) 其中,
Qpred 和Qgt 分别代表预测的质量分数和对应的主观质量分数.3. 实验结果与分析
3.1 测试数据集与评价指标
为了全面评估本文方法在处理真实失真和合成失真上的能力, 选择了4个关键的VQA数据集进行测试. 在真实失真类别中, 选取了KoNViD-1k和LIVQ-VQC这两个数据集. KoNViD-1k由
1200 个从多种设备和分辨率中捕获的用户生成内容视频组成, 而LIVQ-VQC由80名移动相机用户拍摄的585个视频场景构成. 在合成失真类别中, 选用了LIVE和CSIQ这两个数据集. LIVE数据库, 由德克萨斯州奥斯汀分校提供, 包含160个视频, 覆盖了4种主要的失真类型. 与此同时, CSIQ数据库则包括了6种不同失真类型的228个视频. 这4个数据库的选择旨在确保模型能够在真实和合成失真条件下进行全面验证和评估, 数据集的详细内容如表1所示.表 1 所用数据集详细参数说明数据集 类型 视频个数 分辨率 时长 (s) LIVE 合成失真数据集 160 768×432 10 CSIQ 合成失真数据集 228 832×480 10 KoNViD-1k 真实失真数据集 1200 540p 8 LIVE-VQC 真实失真数据集 585 240p–1080p 10 为了确保模型性能的准确评估, 本文选取了两种关键的评价标准: 皮尔逊线性相关系数(Pearson linear correlation coefficient, PLCC)和斯皮尔曼秩相关系数(Spearman rank order correlation coefficient, SROCC). PLCC考量的是预测值与真实值之间的线性关系, 其公式表示为式(11):
PLCC=∑i(Si−μS)(S′i−μ′S)√∑i(Si−μS)2∑i(S′i−μ′S)2 (11) 其中,
Si 和S′i 分别代表第i个视频的真实质量评分和预测评分, 而μS 和μ′S 是真实评分和预测评分的均值. 而SROCC则对预测值的单调趋势进行描述, 其公式表示为式(12):SROCC=1−6∑id2in(n2−1) (12) 其中,
di 是第i个视频真实评分和预测评分之间的排名差距, 而n是视频的总数. 理论上, 如果SROCC和PLCC的值接近于1, 那么这表示模型具有出色的预测能力. 在进行PLCC的计算前, 本文按照文献[27]中的方法, 利用四参数逻辑函数对客观评分进行非线性映射, 使其与主观评分对应.3.2 实验设置
本文的实验在配备有两块GeForce RTX 3090显卡的服务器上进行, 网络是在PyTorch框架内实现. 模型训练分为自监督预训练和微调两个阶段. 自监督预训练使用随机梯度下降优化器, 初始学习率为0.001, 动量为0.9, 权重衰减为0.005, 并通过步长学习率调度器每6个训练周期衰减学习率0.1. 微调阶段使用初始学习率为
0.0003 , 训练周期为100, 损失函数权重系数α、β、γ分别为1、1和0.5, 温度参数T设定为0.07. 本文将公共数据集80%用于微调, 20%用于测试, 为了保证结果的鲁棒性, 这种微调测试过程重复5次, 然后使用评估指标的平均值, 作为最终的评估结果.3.3 性能比较
为了全面评估本文方法在各种场景中的表现, 选择了一系列流行的质量评估模型作为基准进行比较, 包括: SIONR[5]、RIRNet[6]、BVQI[9]、Q-Boost[14]、VIDEVAL[15]. 考虑到近年来自监督学习方法在许多领域都取得了令人瞩目的成果, 本文特意挑选了一些采用自监督策略的模型, 包括: CSPT[17]、VISION[18]、CONVIQT[19] 、SelfVQA[20]确保了比较的公正性和全面性, 这不仅有助于深入了解自监督方法在此类任务中的优势, 还能证明本文方法在与其他先进技术进行比较时具有竞争力.
表2最好结果加粗显示, 次优结果加下划线显示, 可以看出, 在合成失真数据库LIVE和CSIQ上, 本文提出的模型在SROCC和PLCC两个指标上均达到了最高的分数, 显示出了卓越的性能. 与目前最好的自监督学习方法SelfVQA相比, 在SROCC上分别提高了2.91%和0.39%, 在PLCC上分别提高了2.68%和1.41%. 这得益于将失真类型和对比学习作为辅助任务, 因为合成失真数据集通常包含固定的失真类型, 如模糊、噪声、压缩等. 当模型在训练时使用失真类型作为一个辅助任务, 它可以更有效地学习到这些特定失真的特征, 从而在测试阶段具有更好的鉴别和预测能力, 对比学习也可以帮助模型提高对视频质量的敏感性.
表 2 在合成失真数据集上的性能比较类型 模型 LIVE数据集 CSIQ数据集 SROCC PLCC SROCC PLCC 有监督方法 RIRNet 0.7516 0.6877 0.7957 0.7715 VIDEVAL 0.6716 0.6739 0.6498 0.6592 SIONR 0.5977 0.6585 0.6567 0.7009 Q-Boost — — — — 自监督方法 CSPT 0.7276 0.8196 0.7398 0.7093 CONVIQT 0.6220 0.5950 0.7660 0.7490 SelfVQA 0.8699 0.8850 0.9069 0.8949 Ours 0.8952 0.9087 0.9105 0.9075 为了深入评估模型在不同失真类型上的性能, 本文对各个单一失真类型进行了单独训练和测试, 并与其他VQA方法在LIVE 和 CSIQ 数据集上进行了对比, 实验结果如表3所示, 其中最好结果加粗显示, 次优结果加下划线显示. 可以观察到本文方法在 LIVE 数据集上对所有失真类型均显著优于其他 VQA 方法, 在 CSIQ 数据集的大部分失真类型上也取得了最佳结果. 这验证了失真类型预测和对比学习作为自监督辅助任务的有效性. 然而, 在MJPEG和SNOW失真上取得了次优的结果, 与预训练数据集对这两种失真类型的样本覆盖不足有关.
表 3 不同VQA方法针对单一失真类型的SROCC值对比模型 LIVE数据集 CSIQ数据集 WL IP H264 MPEG2 H264 WLPL MJPEG SNOW AWGN HEVC TLVQM 0.6071 0.4857 0.7167 0.8571 0.8667 0.6333 0.8929 0.8286 0.8 0.75 VIDEVAL 0.5394 0.6429 0.7 0.85 0.8061 0.3019 0.8818 0.8214 0.7857 0.8 SIONR 0.6777 0.76 0.8714 0.7952 0.7943 0.6914 0.4857 0.5249 0.4572 0.6457 RIRNet 0.5809 0.76 0.519 0.8986 0.8742 0.6685 0.8971 0.8742 0.9086 0.8628 CSPT 0.7619 0.8285 0.8304 0.7763 0.8736 0.7143 0.7191 0.8857 0.8743 0.8476 CONVIQT 0.595 0.486 0.738 0.81 0.817 0.533 0.8 0.867 0.8 0.717 SelfVQA 0.7074 0.8051 0.8285 0.9095 0.92 0.897 0.9429 0.9428 0.8857 0.9543 Ours 0.8146 0.8429 0.9048 0.9424 0.9581 0.9152 0.9321 0.9381 0.9111 0.9717 表4最好结果加粗显示, 次优结果加下划线显示. 可以看出, 在真实失真数据集LIVE-VQC上, 本文方法领先于其他所有方法, 与自监督学习方法SelfVQA相比, 在SROCC上提高了6.3%, 在PLCC上提高了4.52%, 这得益于本文在预训练阶段采用的预测播放速度方法能够很好捕获视频的动态特征, 这些特征在移动相机拍摄的视频中尤为重要. 但是在KoNViD-1k数据集上, 结果低于CONVIQT, 造成这种性能差异的原因在于本文使用的预训练数据远少于CONVIQT. CONVIQT使用了6万个视频进行预训练, 大量的数据量提高了其模型对不同内容的适应性和鲁棒性. 此外, KoNViD-1k数据集包含多种不同的内容, 这些内容与模型的训练数据有很大的差异, 进而就会导致模型在此数据集上的泛化能力下降.
图3 展示了模型在LIVE、CSIQ、KoNViD-1k 和 LIVE-VQC数据集上的可视化表现. 这些散点图直观地展示了模型预测的质量分数与各数据集的主观质量评分之间的关系. 为了更加清晰地展示这种关系, 本文使用了一条拟合曲线以描绘客观预测值和主观评分值之间的趋势. 从散点图中可以看出, 预测值围绕着拟合曲线分布, 这表明本文所提方法在不同数据集上都能够与主观评分保持较好的一致性, 进一步说明了本文所提方法性能的准确性和可靠性.
表 4 在真实失真数据集上的性能比较类别 模型 KoNViD-1k数据集 LIVE-VQC数据集 SROCC PLCC SROCC PLCC 有监督方法 RIRNet 0.7475 0.7388 0.7056 0.7108 VIDEVAL 0.7830 0.7790 0.7416 0.7493 SIONR 0.82 0.8146 0.7613 0.7769 Q-Boost 0.8010 0.8030 0.7410 0.7930 BVQI 0.7600 0.7600 0.7840 0.7940 自监督方法 CSPT 0.8145 0.8104 0.7604 0.7628 VISION 0.5980 0.5970 0.6760 0.7010 CONVIQT 0.8510 0.8490 0.8080 0.8170 SelfVQA 0.8179 0.8160 0.7647 0.7894 Ours 0.8389 0.8489 0.8133 0.8251 3.4 跨数据集实验
理想的视频质量评估模型应当具备良好的泛化性, 能够在面对从未接触过的数据样本时, 依旧保持稳定的评估效能. 为了验证该研究所提模型的这一能力, 本文采取了跨数据集的测试方法, 具体而言从一个数据集上进行训练, 然后在另外3个数据集上进行测试, 以检验模型在未经训练的数据集上的表现.
跨数据集的实验结果如表5所示. 总体而言, 本文的模型展现了卓越的竞争力. 例如, 当模型在KoNViD-1k上训练并在LIVE-VQC上测试时, 该模型性能相比于基线模型提升了2.29%. 然而, 由于CSIQ数据集包含6种复杂多样的失真类型, 当模型在其他数据集(如LIVE或KoNViD-1k)上训练并在CSIQ数据集上测试时, 可能未充分学习到这些复杂失真的特征, 导致性能不佳. 尽管在某些特定测试条件下表现有所下降, 但是整体来看, 该模型在所有测试条件下的平均性能提升了4.14%.
表 5 跨数据集实验结果训练 测试 SelfVQA Ours LIVE CSIQ 0.3315 0.3159 KoNViD-1k 0.3088 0.3835 LIVE-VQC 0.4077 0.5397 CSIQ LIVE 0.4049 0.4104 KoNViD-1k 0.6243 0.6316 LIVE-VQC 0.578 0.5851 KoNViD-1k LIVE 0.1504 0.1591 CSIQ 0.4896 0.4468 LIVE-VQC 0.6584 0.6735 LIVE-VQC LIVE 0.2165 0.2419 CSIQ 0.3733 0.3702 KoNViD-1k 0.7052 0.7088 平均结果 0.4374 0.4555 这一结果表明该模型能够将从一个数据集中学习到的特征, 有效迁移到其他数据集. 跨数据集的实验结果不仅突显了自监督预训练对于增强模型鲁棒性的重要性, 也验证了该模型捕捉到的特征具有较强的泛化能力.
3.5 消融实验
3.5.1 自监督辅助任务消融实验
为了验证本文提出的自监督学习方法中各辅助任务的有效性, 探究失真类型、播放速度以及对比学习作为辅助任务对模型性能的影响, 本节将展示一系列消融实验结果. 具体而言, 按照辅助任务的不同组合进行了6组实验, 并在LIVE数据集上进行测试, 以观察模型在不同配置下的性能变化.
表6结果显示, 当单独移除播放速度预测任务时(对比第5行和第7行), SROCC下降了4.59%, PLCC下降了6.16%. 这一发现证明了播放速度预测在捕捉视频的动态变化和时序特征方面发挥了关键作用, 对提高模型的整体性能至关重要. 其次, 当单独去除失真类型任务时(对比第6行和第7行), 模型的SROCC下降了3.90%, PLCC下降了4.20%, 这说明失真类型预测同样对模型的评估能力有显著影响. 而当去除对比学习任务时(对比第4行和第7行), 尽管模型性能的下降幅度相对较小, 但它在辅助失真类型的特征区分上起着积极作用, 这一点从表6中第1行和第5行的比较中得以显现.
表 6 自监督辅助任务消融实验结果序号 失真类型
预测播放速度
预测对比学习结合
余弦相似度SROCC PLCC 1 √ — — 0.8405 0.8376 2 — √ — 0.8584 0.8488 3 — — √ 0.8276 0.8272 4 √ √ — 0.8809 0.8786 5 √ — √ 0.8541 0.8527 6 — √ √ 0.8602 0.8705 7 √ √ √ 0.8952 0.9087 同时本文使用t-SNE图更加直观展示对比学习对特征分布的影响, 可视化结果如图4所示, 不同颜色的点代表不同的失真类型. 图4(a)展示了未使用对比学习时的特征空间分布, 而图4(b)则显示了对比学习引入后, 不同失真类型的特征在一定程度上被模型区分并聚集. 这一结果不仅体现了对比学习促使模型更加准确地区分不同失真样本特征, 也说明了其对于整体模型性能提升的贡献.
表6还显示, 单一辅助任务的效果不如完整的多任务框架(对比第1行和第7行、第2行和第7行、第3行和第7行), 但仅使用播放速度预测任务的性能表现优于仅使用其他两种辅助任务的情形(对比第1行、第2行和第3行). 这进一步证实了播放速度预测在提升视频质量评估准确性方面的重要性. 上述消融实验结果不仅验证了各辅助任务的有效性, 也证实了本文所用的多任务自监督学习框架的有效性.
3.5.2 多尺度时空特征提取模块消融实验
为了深入理解本文所提多尺度时空特征提取模块在模型中的作用, 该研究对所提出的VQA模型中的多尺度时空特征提取模块进行了单独的消融分析.
实验结果如表7中所示, 使用多尺度时空特征提取模块的模型在性能上与不使用多尺度时空特征提取模块相比, 前者在SROCC上比后者提高了7.09%, 在PLCC上提高了5.93%. 这一显著的性能提升证明了多尺度时空特征提取模块引入了更丰富的、更多层次的语义信息, 增强了VQA模型的时空建模能力, 从而提高了模型在视频质量评估方面的有效性.
表 7 多尺度时空特征提取模块消融实验结果多尺度时空特征提取模块 SROCC PLCC × 0.8359 0.8578 √ 0.8952 0.9087 4. 结论
本文针对视频质量评估任务中的整体时空特征捕捉不足的问题, 提出了一个综合利用播放速度预测、失真类型识别和对比学习的自监督学习框架. 该框架通过引入多个辅助任务以预训练VQA模型, 旨在更准确地捕获视频的动态变化和时序特征. 此外, 本文采用了多尺度时空特征提取模块、SimAM注意力机制和Swin Transformer以增强时空建模能力. 实验结果表明, 该方法在4个数据集上的性能显著优于现有的自监督方法, 尤其在处理复杂动态场景时展现了卓越的性能. 这些结果不仅证明了自监督学习在视频质量评估任务中的有效性, 也显示了该方法在捕捉动态视频质量关键特征方面的潜力. 在接下来的工作中, 计划探索更多种类的自监督辅助任务, 以提高模型对于各种失真类型和视频内容的适应性. 同时, 进一步优化模型的参数量和帧率性能, 以在计算效率和准确性之间实现更好的平衡.
-
表 1 所用数据集详细参数说明
数据集 类型 视频个数 分辨率 时长 (s) LIVE 合成失真数据集 160 768×432 10 CSIQ 合成失真数据集 228 832×480 10 KoNViD-1k 真实失真数据集 1200 540p 8 LIVE-VQC 真实失真数据集 585 240p–1080p 10 表 2 在合成失真数据集上的性能比较
类型 模型 LIVE数据集 CSIQ数据集 SROCC PLCC SROCC PLCC 有监督方法 RIRNet 0.7516 0.6877 0.7957 0.7715 VIDEVAL 0.6716 0.6739 0.6498 0.6592 SIONR 0.5977 0.6585 0.6567 0.7009 Q-Boost — — — — 自监督方法 CSPT 0.7276 0.8196 0.7398 0.7093 CONVIQT 0.6220 0.5950 0.7660 0.7490 SelfVQA 0.8699 0.8850 0.9069 0.8949 Ours 0.8952 0.9087 0.9105 0.9075 表 3 不同VQA方法针对单一失真类型的SROCC值对比
模型 LIVE数据集 CSIQ数据集 WL IP H264 MPEG2 H264 WLPL MJPEG SNOW AWGN HEVC TLVQM 0.6071 0.4857 0.7167 0.8571 0.8667 0.6333 0.8929 0.8286 0.8 0.75 VIDEVAL 0.5394 0.6429 0.7 0.85 0.8061 0.3019 0.8818 0.8214 0.7857 0.8 SIONR 0.6777 0.76 0.8714 0.7952 0.7943 0.6914 0.4857 0.5249 0.4572 0.6457 RIRNet 0.5809 0.76 0.519 0.8986 0.8742 0.6685 0.8971 0.8742 0.9086 0.8628 CSPT 0.7619 0.8285 0.8304 0.7763 0.8736 0.7143 0.7191 0.8857 0.8743 0.8476 CONVIQT 0.595 0.486 0.738 0.81 0.817 0.533 0.8 0.867 0.8 0.717 SelfVQA 0.7074 0.8051 0.8285 0.9095 0.92 0.897 0.9429 0.9428 0.8857 0.9543 Ours 0.8146 0.8429 0.9048 0.9424 0.9581 0.9152 0.9321 0.9381 0.9111 0.9717 表 4 在真实失真数据集上的性能比较
类别 模型 KoNViD-1k数据集 LIVE-VQC数据集 SROCC PLCC SROCC PLCC 有监督方法 RIRNet 0.7475 0.7388 0.7056 0.7108 VIDEVAL 0.7830 0.7790 0.7416 0.7493 SIONR 0.82 0.8146 0.7613 0.7769 Q-Boost 0.8010 0.8030 0.7410 0.7930 BVQI 0.7600 0.7600 0.7840 0.7940 自监督方法 CSPT 0.8145 0.8104 0.7604 0.7628 VISION 0.5980 0.5970 0.6760 0.7010 CONVIQT 0.8510 0.8490 0.8080 0.8170 SelfVQA 0.8179 0.8160 0.7647 0.7894 Ours 0.8389 0.8489 0.8133 0.8251 表 5 跨数据集实验结果
训练 测试 SelfVQA Ours LIVE CSIQ 0.3315 0.3159 KoNViD-1k 0.3088 0.3835 LIVE-VQC 0.4077 0.5397 CSIQ LIVE 0.4049 0.4104 KoNViD-1k 0.6243 0.6316 LIVE-VQC 0.578 0.5851 KoNViD-1k LIVE 0.1504 0.1591 CSIQ 0.4896 0.4468 LIVE-VQC 0.6584 0.6735 LIVE-VQC LIVE 0.2165 0.2419 CSIQ 0.3733 0.3702 KoNViD-1k 0.7052 0.7088 平均结果 0.4374 0.4555 表 6 自监督辅助任务消融实验结果
序号 失真类型
预测播放速度
预测对比学习结合
余弦相似度SROCC PLCC 1 √ — — 0.8405 0.8376 2 — √ — 0.8584 0.8488 3 — — √ 0.8276 0.8272 4 √ √ — 0.8809 0.8786 5 √ — √ 0.8541 0.8527 6 — √ √ 0.8602 0.8705 7 √ √ √ 0.8952 0.9087 表 7 多尺度时空特征提取模块消融实验结果
多尺度时空特征提取模块 SROCC PLCC × 0.8359 0.8578 √ 0.8952 0.9087 -
[1] Wang Z, Rehman A. Begin with the end in mind: A unified end-to-end quality-of-experience monitoring, optimization and management framework. Proceedings of the 2017 SMPTE Annual Technical Conference and Exhibition. SMPTE, 2017. 1–11. [2] Kim W, Kim J, Ahn S, et al. Deep video quality assessor: From spatio-temporal visual sensitivity to a convolutional neural aggregation network. Proceedings of the 15th European Conference on Computer Vision. Munich: Springer, 2018. 219–234. [3] Xu MN, Chen JM, Wang HQ, et al. C3DVQA: Full-reference video quality assessment with 3D convolutional neural network. Proceedings of the 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Barcelona: IEEE, 2020. 4447–4451. [4] Soundararajan R, Bovik AC. Video quality assessment by reduced reference spatio-temporal entropic differencing. IEEE Transactions on Circuits and Systems for Video Technology, 2013, 23(4): 684–694. [doi: 10.1109/TCSVT.2012.2214933] [5] Wu W, Li QY, Chen ZZ, et al. Semantic information oriented no-reference video quality assessment. IEEE Signal Processing Letters, 2021, 28: 204–208. [doi: 10.1109/LSP.2020.3048607] [6] Chen P, Li L, Ma L, et al. RIRNet: Recurrent-in-recurrent network for video quality assessment. Proceedings of the 28th ACM International Conference on Multimedia. Seattle: ACM, 2020. 834–842. [7] Huang DJ, Kao YT, Chuang TH, et al. SB-VQA: A stack-based video quality assessment framework for video enhancement. Proceedings of the 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Vancouver: IEEE, 2023. 1613–1622. [8] You JY, Lin Y. Efficient Transformer with locally shared attention for video quality assessment. Proceedings of the 2022 IEEE International Conference on Image Processing (ICIP). Bordeaux: IEEE, 2022. 356–360. [9] Wu HN, Liao L, Wang AN, et al. Towards robust text-prompted semantic criterion for in-the-wild video quality assessment. arXiv:2304.14672, 2023. [10] Lin LQ, Wang Z, He JC, et al. Deep quality assessment of compressed videos: A subjective and objective study. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33(6): 2616–2626. [doi: 10.1109/TCSVT.2022.3227039] [11] Kou TC, Liu XH, Sun W, et al. StableVQA: A deep no-reference quality assessment model for video stability. Proceedings of the 31st ACM International Conference on Multimedia. Ottawa: ACM, 2023. 1066–1076. [12] 施文娟, 孙彦景, 左海维, 等. 基于视频自然统计特性的无参考移动终端视频质量评价. 电子与信息学报, 2018, 40(1): 143–150. [doi: 10.11999/JEIT170165] [13] 姚军财, 申静, 黄陈蓉. 基于多层BP神经网络的无参考视频质量客观评价. 自动化学报, 2022, 48(2): 594–607. [14] Zhang Z, Wu H, Ji Z, et al. Q-Boost: On visual quality assessment ability of low-level multi-modality foundation models. Proceedings of the 2024 IEEE International Conference on Multimedia and Expo Workshops. Niagara Falls: IEEE, 2023. 1–6. [15] Tu ZZ, Wang YL, Birkbeck N, et al. UGC-VQA: Benchmarking blind video quality assessment for user generated content. IEEE Transactions on Image Processing, 2021, 30: 4449–4464. [doi: 10.1109/TIP.2021.3072221] [16] Wang JL, Jiao JB, Liu YH. Self-supervised video representation learning by pace prediction. Proceedings of the 16th European Conference on Computer Vision. Glasgow: Springer, 2020. 504–521. [17] Chen PF, Li LD, Wu JJ, et al. Contrastive self-supervised pre-training for video quality assessment. IEEE Transactions on Image Processing, 2022, 31: 458–471. [doi: 10.1109/TIP.2021.3130536] [18] Mitra S, Soundararajan R. Multiview contrastive learning for completely blind video quality assessment of user generated content. Proceedings of the 30th ACM International Conference on Multimedia. Lisboa: Association for Computing Machinery, 2022. 1914–1924. [19] Madhusudana PC, Birkbeck N, Wang YL, et al. CONVIQT: Contrastive video quality estimator. IEEE Transactions on Image Processing, 2023, 32: 5138–5152. [doi: 10.1109/TIP.2023.3310344] [20] Jiang SJ, Sang QB, Hu ZY, et al. Self-supervised representation learning for video quality assessment. IEEE Transactions on Broadcasting, 2023, 69(1): 118–129. [doi: 10.1109/TBC.2022.3197904] [21] Madhusudana PC, Birkbeck N, Wang YL, et al. Image quality assessment using contrastive learning. IEEE Transactions on Image Processing, 2022, 31: 4149–4161. [doi: 10.1109/TIP.2022.3181496] [22] Yang L, Zhang R Y, Li L, et al. SimAM: A simple, parameter-free attention module for convolutional neural networks. Proceedings of the 38th International Conference on Machine Learning. PMLR, 2021. [23] Liu Z, Lin YT, Cao Y, et al. Swin Transformer: Hierarchical vision Transformer using shifted windows. Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021. 9992–10002. [24] van den Oord A, Li YZ, Vinyals O. Representation learning with contrastive predictive coding. arXiv:1807.03748, 2018. [25] He KM, Zhang XY, Ren SQ, et al. Deep residual learning for image recognition. Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016. 770–778. [26] Wu HN, Chen CF, Hou JW, et al. FAST-VQA: Efficient end-to-end video quality assessment with fragment sampling. Proceedings of the 17th European Conference on Computer Vision. Tel Aviv: Springer, 2022. 538–554. [27] Video Quality Experts Group. Final report from the video quality experts group on the validation of objective models of video quality assessment. Proceedings of the 2000 VQEG Meeting. Ottawa: VQEG, 2000.