• 当期目录
  • 优先出版
  • 过刊浏览
  • 点击排行
  • 下载排行
  • 综述文章
    快速检索
    过刊检索
    全选反选导出
    显示模式:
    2025,34(3):1-13, DOI: 10.15888/j.cnki.csa.009796, CSTR: 32024.14.csa.009796
    摘要:
    基于点云的三维物体识别和检测是计算机视觉和自主导航领域的一个重要研究课题. 如今, 深度学习算法大大提高了三维点云分类的准确性和鲁棒性. 然而, 深度学习网络通常存在网络结构复杂、训练过程耗时等问题. 本文提出了一种三维点云分类网络Point-GBLS, 它将深度学习和宽度学习系统结合在一起. 网络结构简单, 训练时间短. 首先通过基于深度学习的特征提取网络提取点云特征, 然后用改进的宽度学习系统对其进行分类. ModelNet40和ScanObjectNN数据集上的实验表明, Point-GBLS识别准确率分别达到92%以上和78%以上, 训练时间低于同类深度学习方法的50%以上, 优于具有相同骨干的深度学习网络.
    2025,34(3):14-26, DOI: 10.15888/j.cnki.csa.009792, CSTR: 32024.14.csa.009792
    摘要:
    联邦学习是一种分布式机器学习技术, 允许参与方在本地训练模型并上传更新至中央服务器, 由中央服务器聚合更新来生成更优的全局模型, 从而保障数据隐私和解决数据孤岛问题. 然而, 梯度聚合过程依赖中央服务器, 这可能导致单点故障, 且中央服务器也是潜在的恶意攻击者. 因此, 联邦学习必须去中心化. 现有的去中心化方案没有考虑外部敌手和数据通信带来的性能瓶颈问题. 为了解决上述问题, 提出一种考虑外部敌手的去中心化联邦学习方法. 该方法应用Shamir秘密共享方案, 将模型更新分成多个份额, 保护梯度隐私. 该方法提出一种洪泛共识协议, 每轮随机选取某一参与方作为中央服务器完成全局聚合, 高效实现联邦学习的去中心化. 同时, 该方法引入BLS聚合签名, 防范外部敌手攻击, 提升验证效率. 理论分析和实验结果表明, 该方法是安全高效的, 相比同类联邦学习方法具有更高的效率.
    2025,34(3):27-39, DOI: 10.15888/j.cnki.csa.009775, CSTR: 32024.14.csa.009775
    摘要:
    在低光照图像增强的研究中, 虽然现有技术在提升图像亮度方面取得了进展, 但细节恢复不足和颜色失真等问题仍然存在. 为了解决这些问题, 本文提出一种基于Retinex理论具有双重注意力的Transformer增强网络——DARFormer. 该网络由光照估计网络和损坏修复网络两部分组成, 旨在提升低光照图像的亮度, 同时保留更多的细节并防止颜色失真. 光照估计网络是基于图像先验来估计亮度映射项, 用于低光照图像亮度增强; 损坏修复网络则优化亮度增强后的图像质量, 采用具有空间注意力和通道注意力的Transformer架构. 在LOL_v1、LOL_v2和SID公开数据集上进行实验表明: 与主流的增强方法相比, DARFormer在定量和定性指标上取得了更好的增强结果.
    2025,34(3):40-50, DOI: 10.15888/j.cnki.csa.009830, CSTR: 32024.14.csa.009830
    摘要:
    为了提升音频驱动人体动画生成的真实性, 对UnifiedGesture模型进行了改进研究. 首先, 通过引入编码器-解码器架构, 从音频中提取面部特征, 以弥补原模型在面部表情生成方面的不足. 其次, 结合交叉局部注意力机制和基于Transformer-XL的多头注意力机制, 以增强长序列中的时序依赖性. 同时, 利用变分量化自动编码器 (vector quantized variational autoencoder, VQVAE), 融合生成全身运动序列, 以提升生成动作的多样性和完整性. 最后, 在BEAT数据集上进行实验, 通过定量和定性分析结果表明, 改进后的UnifiedGesture-F模型在音频与人体动作同步性和整体真实感方面相比原模型有显著提升.
    2025,34(3):51-61, DOI: 10.15888/j.cnki.csa.009784, CSTR: 32024.14.csa.009784
    摘要:
    面对视频质量评估领域标记数据不足的问题, 研究者开始转向自监督学习方法, 旨在借助大量未标记数据来学习视频质量评估模型. 然而现有自监督学习方法主要聚焦于视频的失真类型和视频内容信息, 忽略了视频随时间变化的动态信息和时空特征, 这导致在复杂动态场景下的评估效果不尽人意. 针对上述问题, 提出了一种新的自监督学习方法, 通过播放速度预测作为预训练的辅助任务, 使模型能更好地捕捉视频的动态变化和时空特征, 并结合失真类型预测和对比学习, 增强模型对视频质量差异的敏感性学习. 同时, 为了更全面捕捉视频的时空特征, 进一步设计了多尺度时空特征提取模块等以加强模型的时空建模能力. 实验结果显示, 所提方法在LIVE、CSIQ以及LIVE-VQC数据集上, 性能显著优于现有的基于自监督学习的方法, 在LIVE-VQC数据集上, 本方法在PLCC指标上平均提升7.90%, 最高提升17.70%. 同样, 在KoNViD-1k数据集上也展现了相当的竞争力. 这些结果表明, 本文提出的自监督学习框架有效增强视频质量评估模型的动态特征捕捉能力, 并在处理复杂动态视频中显示出独特优势.
    2025,34(3):62-71, DOI: 10.15888/j.cnki.csa.009810, CSTR: 32024.14.csa.009810
    摘要:
    可解释推荐算法利用行为信息和其他相关信息不仅生成推荐结果而且提供推荐理由, 从而增加推荐的透明度和可信度. 传统的可解释推荐算法往往局限于分析评分数据和文本数据, 对图像这类数据利用并不充分, 且并没有很好地考虑模态间的有效融合方式, 难以充分挖掘不同模态之间的内在关联. 针对上述问题, 提出一种融合多模态特征的可解释推荐模型, 该模型采用特征融合技术, 从多模态角度提高推荐解释的质量与个性化. 首先, 设计多模态特征提取方法, 基于CLIP图像编码器和文本编码器分别提取用户和物品的文本特征和图像特征. 其次, 采用交叉注意力技术实现文本和图像的跨模态融合, 增强模态间的语义相关性. 最后, 将多模态信息与交互信息结合, 联合优化模态对齐、评分预测与解释生成任务. 实验结果表明, 所提出的方法在3个多模态推荐数据集上都表现出了明显优势, 尤其在提升解释质量方面.

下载归智APP ,关注本刊

友情链接

您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号