2025年第34卷第8期文章目次

2025, 34(8):1-13. DOI: 10.15888/j.cnki.csa.009907 CSTR: 32024.14.csa.009907

摘要 (1076) HTML (2125) PDF 6.76 K (2091) 评论 (0) 收藏

摘要:单目深度估计(monocular depth estimation, MDE)是计算机视觉中的核心任务之一, 在空间理解、三维重建、自动驾驶等领域扮演着重要角色. 基于深度学习的单目深度估计方法能够从单张图像中预测物体的相对深度, 但由于缺乏度量尺度信息, 常面临尺度不一致的问题, 限制了其在视觉SLAM、三维重建和新视角合成等下游任务中的应用效果. 为此, 单目度量深度估计(monocular metric depth estimation, MMDE)应运而生, 通过对场景尺度的精确推断, 解决了深度预测中的一致性难题, 不仅显著提升了在时序任务中的深度估计稳定性, 还简化了下游任务的适配, 进一步拓展了实际应用场景. 本文系统回顾了深度估计技术的发展历程, 从传统几何方法到深度学习方法的转向, 全面梳理了该领域的技术演进及其关键突破. 在此基础上, 重点讨论了尺度不可知(scale-agnostic)方法在零样本(zero-shot)泛化中的贡献, 分析其如何为MMDE的进一步发展奠定基础. 本文还深入探讨了零样本MMDE的最新研究进展, 聚焦当前的核心挑战, 包括模型的泛化能力、边缘细节丢失等问题. 针对这些问题, 研究社区通过无标数据扩充、图像分块、模型结构优化和生成式方法等创新途径, 取得了一定进展. 本文详细剖析了这些方向的最新成果及其解决思路, 揭示了当前研究的前沿路线与技术局限. 最后, 总结了零样本MMDE领域内最新研究成果之间的内在联系, 梳理了尚待解决的关键问题, 并展望了未来研究方向. 通过对领域现状与发展趋势的全面分析, 旨在为研究者提供清晰的技术脉络和前沿洞察, 助力研究者更快掌握MMDE的研究现状, 为推动更广泛的应用和技术创新提供启示.

用于方面级情感分析的多信息融合图卷积网络

高玮军，张玉莹，焦成寅

2025, 34(8):14-24. DOI: 10.15888/j.cnki.csa.009909 CSTR: 32024.14.csa.009909

摘要 (377) HTML (846) PDF 6.76 K (1084) 评论 (0) 收藏

摘要:近年来, 方面级情感分析利用图神经网络挖掘依赖句法信息逐渐成为趋势, 但现有方法大多未考虑不同关系类型对内容词的影响, 难以区分关键的关联词. 此外, 多视角信息的相互补充对捕捉情感特征起重要作用, 但在过去的研究中融合机制常被忽视. 为解决这些问题, 提出一种多源信息融合图卷积网络(multi-source information graph convolutional network, MSI-GCN)有效捕获和集成三视角信息. 首先, 设计了一个双通道信息提取模块SSD-GCN (syntax-semantics dual graph convolutional network), 由类型嵌入的句法增强图卷积网络(TES-GCN)和语义图卷积网络(SEM-GCN)组成. TES-GCN通过引入类型嵌入层, 使用句法模块学习不同类型的权重来增强句法信息. SEM-GCN对自注意矩阵进行编码, 捕获语义信息, 并引入正交正则化来增强语义关联. 其次, 嵌入外部知识图表示丰富词汇特征. 最后, 引入局部门控-全局卷积网络, 充分利用视角之间的互补性, 对其进行有效融合. 本文在4个公开数据集上对提出的方法进行了评估, 准确率和Macro-F1值相比于基线模型均有所提升.

基于虚拟视点的大规模室内视觉重定位

张家辉，师晨光，方川，石珉

2025, 34(8):25-32. DOI: 10.15888/j.cnki.csa.009950 CSTR: 32024.14.csa.009950

摘要 (399) HTML (880) PDF 6.74 K (1114) 评论 (0) 收藏

摘要:视觉重定位一直是三维视觉领域广泛讨论的问题, 该问题解决在给定先验地图的情况下, 估计出查询图像的6DOF相机位姿. 在大规模室内环境中进行重定位是增强现实和机器人导航等应用的关键, 然而当相机移动时, 场景外观会快速变化, 这对重定位系统来说非常具有挑战性. 为了解决这个问题, 本文提出了一种基于虚拟视图合成的方法, 旨在特定场景下, 丰富查询数据库并优化位姿估计. 与基于渲染真实图像的虚拟视图合成方法不同, 其无需高质量的三维模型. 本文方法选择直接渲染虚拟视点下的全局和局部特征, 并将它们分别应用于后续的图像检索和特征匹配操作. 所提方法可以在大规模室内环境中大幅提高重定位性能, 例如在InLoc数据集上取得了7.1%和12.2%的提升.

面向多模态晶体结构预测的LLM代理框架

曹芊，徐殷，肖明军

2025, 34(8):33-42. DOI: 10.15888/j.cnki.csa.009893 CSTR: 32024.14.csa.009893

摘要 (1538) HTML (1031) PDF 6.76 K (1248) 评论 (0) 收藏

摘要:高通量X射线衍射(X-ray diffraction, XRD)分析在加速材料发现方面至关重要, 但传统方法通常依赖大量人工解释, 且在处理复杂的XRD数据时容易忽视低强度峰值信息, 从而限制准确性的提升. 为解决这一问题, 本文提出了一个面向多模态晶体结构预测的大语言模型(large language model, LLM)代理框架, 该框架集成了GPT-4驱动的智能代理以及基于XRD和对分布函数的多模态投票模型, 能够自主执行晶体结构和空间群预测任务. 此外, 本文通过引入知识图谱来增强LLM的推理能力, 帮助其理解晶体特征之间的关系, 进一步提升预测的准确性. 实验结果表明, 该框架在晶体结构预测和空间群预测任务上的准确率分别达到97.5%和98.7%. 这一设计显著提升了高通量分析的准确性和效率, 有望推动材料科学研究的进展, 为解决其他具有高度关联性的多任务问题提供宝贵的启示.

基于软件多样性的栈溢出保护技术

梁超毅，叶子昂，戴华昇，张为华

2025, 34(8):43-52. DOI: 10.15888/j.cnki.csa.009914 CSTR: 32024.14.csa.009914

摘要 (369) HTML (817) PDF 6.73 K (1001) 评论 (0) 收藏

摘要:缓冲区溢出漏洞广泛存在于由不安全的高级语言所编写的程序中. 利用缓冲区溢出漏洞, 攻击者可以实现控制流劫持等危险攻击方式. 基于Canary的栈保护技术是处理缓冲区溢出漏洞的一种简单有效且广泛部署的防御手段, 然而位置固定和取值相同的特点使其容易被攻击者分析和破解. 本文提出一种基于软件多样性的栈保护技术, 它以拥有随机化大小和偏移的异构Canary为核心, 不仅能直接抵御常规Canary无法处理的泄漏类和覆盖类攻击, 而且能构造出各种更加安全的多样性软件系统. 实验结果表明, 异构Canary在有效提升安全性的同时仅为SPEC CPU 2017基准程序集额外引入了不高于2%的编译开销和平均3.22%的运行开销.

Siam-STM: 用于卫星视频目标跟踪的时空孪生网络

顾权炜，王洁

2025, 34(8):53-61. DOI: 10.15888/j.cnki.csa.009951 CSTR: 32024.14.csa.009951

摘要 (377) HTML (909) PDF 6.76 K (1087) 评论 (0) 收藏

摘要:随着卫星视频成像技术的显著进步, 卫星视频中的目标跟踪任务引起了越来越多研究人员的关注. 然而之前的研究大多通过全局注意力机制获得空间信息, 这种方法使得模型关注背景部分从而忽略目标; 而且只利用视频帧中目标的空间信息, 目标定位不准确. 本文对现有的孪生网络目标跟踪模型SiamCAR进行改进, 提出时空孪生网络模型Siam-STM. 具体来说, 本文提出基于注意力机制的空间信息感知模块, 聚合图像中的上下文信息并增强卫星视频中小目标特征的辨别力; 为了利用视频帧之间的时间信息, 本文还提出时间信息感知模块对视频中当前帧和历史帧进行融合, 从而学习到不同时刻目标的位置信息, 更好的关注目标轨迹, 缓解相似干扰物的影响. 此外, 为了缓解卫星视频中常见的遮挡影响, 本文在卡尔曼滤波器的基础上引入线性拟合方法, 进而提出一种运动估计机制, 可以有效地建模目标的运动特征进而在目标被遮挡时准确定位目标. 在SatSOT数据集上通过与现有先进模型的实验对比验证了Siam-STM的有效性.

大模型优化的BERT图文多模态情感分析

杨宇飞，钱育蓉，公维军，侯树祥，路燚，陈嘉颖

2025, 34(8):62-69. DOI: 10.15888/j.cnki.csa.009923 CSTR: 32024.14.csa.009923

摘要 (1010) HTML (655) PDF 6.74 K (911) 评论 (0) 收藏

摘要:方面级多模态情感分析属于情感分析以及观点挖掘方向的一个子领域, 旨在方面或属性级别开展情感和观点的分析. 在过去的图文多模态情感分析研究里, 研究者针对如何从图像和文本中提取并融合特征提出了各种方法, 由于图文信息初始所在的语义空间不一致, 最常用的方法是先从单模态中通过模块提取相应的深层信息, 将图像和文本特征映射到一个相同的深层语义空间中, 随后使用特征融合模块进行图文特征融合. 然而, 这种方法势必会引入多个模块用于处理图像和文本的特征并进行融合, 这不可避免增加了模型的参数量和复杂度. 随着如今大模型的发展, 在浅层空间将图像和文本的语义空间进行对齐已成为可能. 本研究利用通义千问开源大模型, 在预处理阶段通过提示词生成图像的文本描述, 让多模态情感分析回归到单模态情感分析任务, 仅通过文本处理模块就能得到最终的图文情感分析结果. 实验表明, 与先前的大多数模型相比, 该方法显著降低了参数量且取得了性能上的提升. 与同样轻量级的TISRI模型相比, 该模型在训练速度和资源占用上均取得了显著优势. 具体代码实现参考https://github.com/triangleXIV/ITFFT.

ACLNet: 基于脑电信号的自闭症检测模型

黄宇恒，蒋春鸿，黄炜壕，潘家辉

2025, 34(8):70-79. DOI: 10.15888/j.cnki.csa.009910 CSTR: 32024.14.csa.009910

摘要 (413) HTML (445) PDF 6.74 K (751) 评论 (0) 收藏

摘要:近年来, 随着自闭症谱系障碍(ASD)诊断需求的增加, 基于脑电信号的自动化检测方法受到广泛关注. 然而, 现有方法在准确性、泛化能力、鲁棒性和可解释性方面仍面临诸多挑战. 本研究提出了一种改进的自闭症检测模型ACLNet (attention-CosCNN-LSTM-net), 通过多维注意力机制提升模型对关键信号的关注度, 结合余弦卷积神经网络捕捉脑电信号的频率特征, 以及树状LSTM模块建模信号中的层次化结构与长期依赖, 全面提取脑电信号的时空与频域特征. 基于ASD脑电信号数据集的5折交叉验证实验表明, ACLNet实现了94.11%的分类准确率、93.29%的召回率和93.78%的精确率, 显著优于现有检测方法. 此外, 模型在不同数据划分及未见数据上表现稳定, 泛化能力和鲁棒性得到充分验证. 本研究还设计了消融实验分析关键模块对性能的贡献, 验证其对特征提取的重要贡献. 本研究为ASD自动化检测提供了一种高效、稳定且具可解释性的解决方案, 进一步推动了脑电信号在ASD检测中的应用, 为相关研究和临床诊断提供支持.

基于以物体为中心扩散的组成式场景建模

沈知萌，黄尹璇

2025, 34(8):80-92. DOI: 10.15888/j.cnki.csa.009920 CSTR: 32024.14.csa.009920

摘要 (417) HTML (468) PDF 6.76 K (825) 评论 (0) 收藏

摘要:以物体为中心的学习方法旨在以组成式的方式对场景进行解析与建模, 并提取场景中物体的表示. 早期以物体为中心的学习方法通常使用简单的像素混合解码器来建模场景. 然而, 这些方法在处理复杂的合成数据集和真实世界数据集时通常表现不佳. 相比之下, 最近的一些以物体为中心的学习方法已经开始尝试使用结构更为复杂的解码器(例如自回归Transformer和扩散模型) 来更有效地提取物体表示并建模场景. 尽管这些近期的方法相比于早期的方法具有更好的效果, 但这些方法采用的非组成式建模方法与人类的直觉相悖, 且它们无法根据物体的表示生成对应的物体图像. 为了解决这个问题, 本文提出了以物体为中心的扩散(object-centric diffusion, OCD)模型, OCD使用一种改进的扩散模型作为解码器, 在重构场景的过程中分别生成物体的外观和掩码, 从而在保证模型效果的同时实现图像的组成式建模. 大量的实验证明, OCD在多种数据集(包括两个合成数据集和两个真实世界数据集) 上的图像分割和生成任务中表现出色, 证明了其普适性和有效性.

面向混合负载的图存储系统

赵鹏程，吕敏

2025, 34(8):93-104. DOI: 10.15888/j.cnki.csa.009895 CSTR: 32024.14.csa.009895

摘要 (362) HTML (404) PDF 6.76 K (814) 评论 (0) 收藏

摘要:图在各种应用中扮演着至关重要的角色, 广泛用于建模实体之间的关系. 图面临的工作负载可分为事务型工作负载和分析型工作负载. 许多应用场景需要同时处理这两类工作负载. 然而, 大多数现有的图存储系统只针对其中一种工作负载进行了优化, 无法同时高效地处理两类工作负载. 为了解决这一问题, 本文提出了面向混合工作负载的图存储系统HGraph. 本文通过仔细分析两类工作负载的访问模式, 设计了一种适应混合工作负载的数据结构. 此外, HGraph引入了一种基于撤销日志的多版本并发控制实现, 该方案不仅能够节省内存, 还能提升遍历操作的性能. HGraph还采用了写时复制和乐观并发控制策略, 以优化事务处理流程, 进一步增强系统的并发能力. 在真实和合成数据集上的实验结果表明, HGraph的性能优于其他图存储系统.

BDmin-VMD-CA结合MDFF的通信辐射源个体识别

刘高辉，闫迪

2025, 34(8):105-115. DOI: 10.15888/j.cnki.csa.009916 CSTR: 32024.14.csa.009916

摘要 (301) HTML (444) PDF 6.77 K (788) 评论 (0) 收藏

摘要:针对通信辐射源细微指纹特征难以提取及单一特征识别率不高的问题, 提出了一种联合最小巴氏距离和相关性分析的变分模态分解与多域特征参数融合的通信辐射源个体识别方法. 首先, 采用基于最小巴氏距离的变分模态分解方法对通信辐射源信号的每个符号波形进行分解, 得到若干个包含数据信息的低频本征模态函数和包含指纹信息的高频本征模态函数; 然后, 计算各本征模态函数与其符号波形信号的相关系数, 选取相关系数小的本征模态函数作为辐射源细微特征分量, 对细微特征分量提取时域、频域及熵多特征参数, 并拼接融合成多域特征向量实现对通信辐射源符号波形的特征提取; 最后, 通过长短期记忆网络对辐射源信号每个符号的多域特征向量依次进行学习分类, 实现通信辐射源个体识别. 选择公开的Oracle数据集进行了实验验证, 实验结果表明当信噪比为6 dB时, 本文提出的方法识别准确率可达96.7%, 比各单一域平均识别准确率提高了22.1%.

改进GMM的高分辨率光学遥感影像土地覆盖分类

王春艳，付开欣，王祥

2025, 34(8):116-124. DOI: 10.15888/j.cnki.csa.009919 CSTR: 32024.14.csa.009919

摘要 (808) HTML (419) PDF 6.74 K (764) 评论 (0) 收藏

摘要:针对高分辨率光学遥感影像地表覆盖复杂性增加、同质区域异质性增加、不同区域相似性增加导致分类难度增加等问题. 对高斯混合模型(Gaussian mixture model, GMM)进行改进, 提出一种基于双邻域关系的高斯回归混合模型(Gaussian regression mixture model, GRMM)监督学习方法. 首先, 对影像区域进行监督采样, 通过最小二乘法对直方图进行拟合, 对每个土地覆盖建立高斯混合模型表征复杂的土地覆盖灰度特征. 其次, 将相邻像素的局部空间信息引入到影像灰度空间中, 构建高斯回归模型. 最后, 在隶属度空间中, 对邻域关系进行再次处理, 实现分类决策. GRMM在合成影像及真实高分辨率遥感影像上的Kappa系数分别达到了97.2%、98.5%, 与现有主流模型相比具有较强的分类效率、去噪能力以及泛化能力, 分类结果边界清晰, 有效提高了高分辨率遥感影像分类能力.

基于注意力机制与局部交互的视觉惯性里程计

王顺兰，沈艳

2025, 34(8):125-138. DOI: 10.15888/j.cnki.csa.009941 CSTR: 32024.14.csa.009941

摘要 (481) HTML (620) PDF 6.72 K (938) 评论 (0) 收藏

摘要:视觉惯性里程计(visual-inertial odometry, VIO)通过融合视觉和惯性数据来实现位姿估计. 在复杂环境中, 惯性数据受噪声干扰, 长时间运动会导致累积误差, 同时大多数VIO忽略了模态间局部信息交互, 未充分利用不同模态的互补性, 从而影响位姿估计精度. 针对上述问题, 本文提出了一种基于注意力机制与局部交互的视觉惯性里程计(attention and local interaction-based visual-inertial odometry, ALVIO)模型. 首先, 该模型分别提取到视觉特征和惯性特征. 其次, 保留惯性特征的历史时序信息, 并通过基于离散余弦变换 (discrete cosine transform, DCT)的通道注意力机制增强低频有效特征, 抑制高频噪声. 接着, 设计了多模态局部交互与全局融合模块, 利用改进的分散注意力机制与MLP-Mixer逐步实现模态间的局部交互与全局融合, 根据不同模态的贡献调节局部特征权重, 实现模态间互补, 再在全局维度上整合特征, 得到统一表征. 最后, 将融合的特征进行时间建模和位姿回归得到相对位姿. 为了验证模型在复杂环境下的有效性, 对公开数据集KITTI和EuRoC进行了低质量处理并实验, 实验表明, ALVIO相较于直接特征拼接模型、多头注意力融合模型、软掩码融合模型, 平移误差分别减少了49.92%、32.82%、37.74%, 旋转误差分别减少了51.34%、25.96%、29.54%, 且具有更高的效率和鲁棒性.

基于局部和全局特征提取优化的人脸图像修复

柏武贰，张乾

2025, 34(8):139-148. DOI: 10.15888/j.cnki.csa.009945 CSTR: 32024.14.csa.009945

摘要 (627) HTML (382) PDF 6.75 K (788) 评论 (0) 收藏

摘要:针对现有算法无法有效整合局部细节和全局结构的问题, 提出一种融合注意力机制优化局部和全局特征的三阶段人脸图像修复算法. 第1阶段引入位置注意力(position attention module, PAM)和聚焦线性注意力(focused linear attention, FLA)机制以增强图像局部纹理细节和全局上下文特征的提取. 在第2阶段优化中, 为了提升局部细节的修复效果, 引入卷积注意力模块(convolutional block attention module, CBAM), 并结合跳跃连接机制. 该设计通过通道和空间维度的差异化权重分配强化特征关注, 同时利用下采样过程中的细节保留策略, 有效实现局部区域的精细化重建. 最后, 引入第3阶段整合特征, 使修复图像更具有鲁棒性. 实验结果表明, 该方法在CelebA-HQ数据集上PSNR和SSIM平均提高了0.1214 dB和0.0022, LPIPS平均下降了0.00065, 显著提高了修复图像质量和视角效果.

基于混合多头注意力重建网络的无监督丝织物瑕疵检测

胡蓉，马浩然，李炜，刘伟霞，李佐勇

2025, 34(8):149-158. DOI: 10.15888/j.cnki.csa.009897 CSTR: 32024.14.csa.009897

摘要 (350) HTML (503) PDF 6.74 K (899) 评论 (0) 收藏

摘要:由于实际应用中丝织物瑕疵样本的稀缺性和异常区域的细微性, 现有方法可能对瑕疵区域不敏感从而导致定位错误. 因此, 为了借助Transformer注意力机制识别细微特征的优势, 本文旨在建立一种适合丝织物瑕疵检测任务的动态注意力共享机制, 以增强模型对细微纹理的捕捉能力. 具体来说, 本文提出了一种基于混合多头注意力重建网络的丝织物瑕疵检测模型: 首先, 使用预训练Transformer编码器提取丝织物图像特征; 然后, 使用带有MeanDropout的瓶颈层以减少模型对重复特征的依赖; 此外, 提出一种混合多头注意力机制(mix mutil-head attention, MMHA)和LlamaMLP相结合的解码器以协助注意力头动态选择适当的丝织物特征, 从而提升对关键细微纹理的关注; 最后, 通过解码器松散重建多层特征的组合, 以实现瑕疵检测和定位. 在真实公开数据集上进行了大量的实验. 实验结果表明, 所提方法在两种数据集上的图像级指标分别提升了2.1%和0.6%, 并且在像素级指标上分别达到了96.0%和60.5%, 取得了领先的性能.

改进ST-GCN的人体跌倒检测

王世刚，邓珍妮，饶淼淼

2025, 34(8):159-168. DOI: 10.15888/j.cnki.csa.009944 CSTR: 32024.14.csa.009944

摘要 (1126) HTML (467) PDF 6.76 K (758) 评论 (0) 收藏

摘要:针对ST-GCN算法在动作识别中需要预先定义人体骨架拓扑图及准确率有待提高等问题, 提出了基于OpenPose与改进ST-GCN结合的跌倒检测算法. 利用OpenPose算法提取人体骨骼关键点数据, 将骨骼关键点数据输入改进的ST-GCN算法中进行动作识别. 对ST-GCN算法进行改进, 引入自适应图卷积模块, 通过动态调整图结构, 增强模型对不同动作类型特征提取的灵活性; 引入注意力机制模块, 进一步提升模型的识别性能. 在公开数据集上验证的结果显示, NTU-RGB+D 60数据集上, X-Sub和X-View的top-1准确率与改进前相比分别提高2.2%和2.5%; Kinetics-Skeleton数据集上, top-1和top-5准确率分别提高3.1%和4%. 自建数据集上的准确率与改进前相比提高4.7%. 实验结果表明, 所提出的算法满足实际应用需求.

基于双模态混合神经网络的自动调制识别方法

郭业才，王孟杰，毛湘南，胡晓伟

2025, 34(8):169-178. DOI: 10.15888/j.cnki.csa.009943 CSTR: 32024.14.csa.009943

摘要 (429) HTML (354) PDF 6.75 K (919) 评论 (0) 收藏

摘要:为提升调制识别的准确性和鲁棒性, 本文提出了一种全新的双模态混合调制识别模型. 模型同时考虑原始时域同相正交(in-phase and quadrature, I/Q)和幅度相位(amplitude and phase, A/P)双模态数据以探索信号的时空相关性. 采用双路对称结构对A/P模态数据进一步处理, 更有效地学习数据间的重复特征, 避免信息冗余. 模型中引入双向长短时记忆网络(bidirectional long short-term memory network, BiLSTM), 利用其双向时序特征提取能力, 增强模型对复杂时序信息的理解. 实验结果表明, 所提模型在数据集RadioML2016.10A上表现良好. 当SNR低于–8 dB时, 平均识别精度比主流模型提升6%, 而SNR在0–18 dB时, 平均识别精度比主流模型提高2%–10%, 且在SNR为16 dB时, 识别精度高达94.32%. 另外, 将模型迁移到数据集RadioML2016.10B所得结果同样最优, 且当SNR为18 dB时识别精度高达93.91%.

改进YOLOv5s和DeepSORT的行人跟踪算法

王世刚，邓珍妮，饶淼淼

2025, 34(8):179-187. DOI: 10.15888/j.cnki.csa.009896 CSTR: 32024.14.csa.009896

摘要 (380) HTML (427) PDF 6.74 K (748) 评论 (0) 收藏

摘要:针对YOLOv5s算法作为DeepSORT的目标检测器具有计算量大、模型复杂以及检测精度有待提高等问题. 首先, 引入GhostNet轻量化模块对YOLOv5s模型进行轻量化, 减少模型的参数量与计算量, 以满足移动端的部署要求; 其次, 引入ECA注意力机制, 增强模型的感知能力, 提升检测性能; 最后, 对YOLOv5s模型进行知识蒸馏, 进一步提升模型的检测精度. 改进后的YOLOv5s在精确度、召回率和mAP@0.5上与未改进的YOLOv5s相比分别提高2%、1%和0.8%, 模型参数量降低47%, 模型复杂度降低48%. 将改进后的YOLOv5s与DeepSORT算法相结合, 与未改进的YOLOv5s相比在MOTA、MOTP和IDF1上分别提升1.2%、3.1%和2.7%, IDS下降35. 通过实验验证, 改进后的YOLOv5s作为检测器能够提升检测速度, 减少行人ID的切换, 能有效应用于行人跟踪.

多尺度自适应上下文融合的皮肤病变图像分割网络

练纯青，李维乾，陈金广，徐子竞，马丽丽

2025, 34(8):188-196. DOI: 10.15888/j.cnki.csa.009915 CSTR: 32024.14.csa.009915

摘要 (358) HTML (459) PDF 6.73 K (759) 评论 (0) 收藏

摘要:针对皮肤图像中存在目标分割区域尺度变化大、病变区域误分割及边界模糊等问题, 本文提出了一种名为MSANet的皮肤病变分割方法. 该方法以pyramid vision Transformer v2 (PVT v2)网络模型作为骨架网络, 结合Transformer 和卷积神经网络 (CNN)的优势, 通过对多层融合解码策略进行改进, 提升了皮肤病变分割的准确性. 首先, 解码部分利用分割门控注意力模块 (SGA)获取多尺度全局和局部空间特征, 增强模型对上下文信息的捕获能力. 随后采用多尺度上下文注意力模块 (MCA)抽取并整合通道和位置信息, 提升网络对病灶区域的精准定位. 在ISIC2017和ISIC2018数据集上的实验结果表明, MSANet的主要指标Dice系数分别达到了90.12%和90.91%, mIoU分别为85.82%和84.27%, 其分割性能优于现有方法.

动态翻译软件流水线代码

廖开来，梁洪亮

2025, 34(8):197-206. DOI: 10.15888/j.cnki.csa.009922 CSTR: 32024.14.csa.009922

摘要 (323) HTML (381) PDF 6.75 K (754) 评论 (0) 收藏

摘要:动态二进制翻译(DBT)技术是一种高效的指令集仿真技术, 常用于构建CPU的仿真模型. 但是, 该技术在仿真数字信号处理器(DSP)时面临诸多挑战. 高性能DSP (例如TI的TMS320C6X系列)常采用超长指令字(VLIW)架构, 而且设计了专用的硬件和指令来简化软件流水线循环的使用. 由于软件流水线循环代码中缺少显式的条件跳转指令和循环计数器修改操作, 而且循环内的指令会被重排、重叠和屏蔽, 因此使用DBT技术翻译这类循环非常困难. 为此, 本文提出了一种新型动态翻译方案, 通过将并行执行的循环迭代串行化, 生成不同状态的翻译块, 以及将内循环和外循环的指令重叠并按照周期对齐, 以同步翻译外循环和内循环, 来正确地模拟软件流水线循环的执行. 实验表明, 在运行含有软件流水线的常用代码时(如dsplib), 采用该翻译方案的仿真器能够得到和硬件开发板相同的结果, 证明了本文方案的正确性, 且本文的仿真器性能是TI官方仿真器的3.25倍.

基于边缘引导与交叉融合的红外小目标检测

张楠，乔钢柱，朱磊

2025, 34(8):207-216. DOI: 10.15888/j.cnki.csa.009912 CSTR: 32024.14.csa.009912

摘要 (310) HTML (636) PDF 6.76 K (833) 评论 (0) 收藏

摘要:红外小目标检测旨在从红外图像中将小目标与背景进行像素级别的分离, 在军事、安防和航天等领域具有重要应用. 然而, 由于低对比度和低信噪比的影响, 现有方法容易丢失红外小目标的边缘信息, 也未能有效利用红外图像中低级和高级特征间的关系. 为此, 本文提出了一种边缘引导与交叉融合的红外小目标检测方法. 针对现有方法在提取边缘信息方面的不足, 本文构建了边缘引导的特征提取模块. 该模块通过注意力加权的方式将图像的边缘信息融入图像的全局-局部和细节特征中, 从而更有效地利用小目标的边缘信息. 此外, 为了更好地融合图像的高级和低级特征并提高目标与背景的分离能力, 本文设计了双分支交叉融合模块. 该模块通过空间注意力和通道注意力分别处理图像的低级和高级特征, 并通过交叉融合充分利用不同级别特征之间的互补性. 在两个基准数据集上的实验结果表明, 该方法相较于先进方法, IoU指标提升了1.89%, nIoU指标提升了2.28%.

基于分层Transformer的相同时间戳错误修复

徐猛，谢凯

2025, 34(8):217-227. DOI: 10.15888/j.cnki.csa.009911 CSTR: 32024.14.csa.009911

摘要 (297) HTML (337) PDF 6.78 K (757) 评论 (0) 收藏

摘要:在流程挖掘领域, 众多流程操作高度依赖于事件日志中精确的时间戳信息. 因此, 与时间戳相关的质量问题影响尤为显著, 特别是相同时间戳错误, 这种错误会引发误导性的流程见解, 进而造成严重的流程偏差. 现有研究在处理此类错误时, 缺乏对事件间长期依赖关系以及属性间潜在关联性的充分考量, 在一定程度上限制了相同时间戳错误的修复精度. 针对这一问题, 本文提出了一种基于分层Transformer模型修复相同时间戳错误的方法. 该方法通过分层信息传递结合多视角交互, 捕获事件间的长距离行为依赖以及属性间的深层关联信息, 逐层完成对错误事件重排序以及对应时间戳的预测任务, 继而实现对相同时间戳错误事件日志的有效修复. 通过4个公开可用的数据集进行评估, 结果表明, 所提方法能够有效提高相同时间戳错误的修复精度.

基于样本独特性的强化学习经验回放机制

周梓芸，孔燕

2025, 34(8):228-236. DOI: 10.15888/j.cnki.csa.009900 CSTR: 32024.14.csa.009900

摘要 (1136) HTML (386) PDF 6.77 K (937) 评论 (0) 收藏

摘要:在深度强化学习领域, 特别是在高维连续的任务中, 如何高效利用有限的训练数据, 避免过拟合, 同时提高模型的泛化能力, 是一个重要的研究课题. 传统的强化学习算法通常采用单一经验池机制, 这种方法在处理高维连续状态和动作空间时, 往往面临探索效率低下和样本利用率不足的问题. 一种基于样本独特性的强化学习经验回放机制DER (distinctive experience replay)被提出, 该机制通过选择具有显著独特性的样本进行经验回放, DER的核心思想是在训练过程中识别并选择具有显著独特性的样本, 将其存储在专门的独特性样本经验池中. 该机制不仅能够有效利用多样化的样本, 避免神经网路过拟合, 还能提高智能体在复杂环境中的学习效率和决策质量. 实验结果表明, DER在经典强化学习环境中显著提高了智能体的学习效率和最终性能.

利用不稳定客户端增强联邦学习全局模型训练

李晓晖，边太成，杨锦，朱习军

2025, 34(8):237-243. DOI: 10.15888/j.cnki.csa.009949 CSTR: 32024.14.csa.009949

摘要 (280) HTML (495) PDF 6.76 K (736) 评论 (0) 收藏

摘要:在联邦学习中, 不稳定客户端可能通过数据污染或恶意行为干扰全局模型的训练过程. 传统的防御方法通常侧重于排除这些客户端, 但忽视了不稳定客户端生成的数据也可以为模型提供有价值的训练信号. 为此, 本文提出了一种增强适应性的联邦对抗训练方法(Fed-ATEA), 利用不稳定客户端生成的对抗样本来增强全局模型的鲁棒性. 该框架允许在不排除不稳定客户端的情况下, 将其生成的对抗样本融入信任组客户端的训练过程, 进而增强模型的稳健性和鲁棒性. 通过动态调整训练策略, 最大化地利用不稳定客户端提供的有益信号, 并有效抑制其负面影响. 实验结果表明, 相对其他联邦学习方法, Fed-ATEA在应对攻击和噪声干扰时展现出更强的稳健性和鲁棒性.

面向工控入侵检测的双服务器安全串行联邦学习

贾鹏洲，栗维勋，卜明新，郭素梅，杨广杰，杨圣洪，袁理想

2025, 34(8):244-251. DOI: 10.15888/j.cnki.csa.009921 CSTR: 32024.14.csa.009921

摘要 (292) HTML (438) PDF 6.76 K (756) 评论 (0) 收藏

摘要:联邦学习已广泛应用于工业控制系统入侵检测, 通过整合不同系统的高质量数据集, 共同训练高性能神经网络模型, 显著提升入侵检测能力. 然而, 现有工控联邦学习方法难以在高性能、低资源消耗和高隐私保护之间实现平衡. 为此, 提出一种面向工控入侵检测的双服务器安全串行联邦学习(dual-server secure serial federated learning, DS-SSFL)方法. 通过双中心服务器协调客户端进行异步串行训练, 高效挖掘各个客户端的数据特征, 共同构建高性能入侵检测模型; 结合决策差分隐私保护机制, 全方位保护数据隐私安全; 并通过抗遗忘聚合策略有效缓解串行训练中的模型灾难性遗忘问题. 实验结果表明, 相比于传统联邦学习方法, DS-SSFL显著降低了通信和计算资源开销, 提升了模型的鲁棒性与收敛效率.

结合多尺度特征和细节感知策略的遥感图像场景分类模型

马惠，霍然

2025, 34(8):252-263. DOI: 10.15888/j.cnki.csa.009901 CSTR: 32024.14.csa.009901

摘要 (789) HTML (463) PDF 6.77 K (879) 评论 (0) 收藏

摘要:针对遥感图像场景分类中存在的场景尺度多变性、类内多样性和类间相似性, 以及有标签训练样本稀缺的问题, 本文提出了一种结合多尺度特征和细节感知策略的Vision Transformer (ViT)模型用于遥感图像场景分类. 该模型通过引入空洞空间金字塔池化模块, 有效捕捉并融合了遥感图像中的多尺度特征, 同时增强了对局部特征信息的利用, 从而进一步提升了特征判别能力. 另外, 采用创新的细节感知掩码策略, 使得模型能够有效利用无标签遥感图像数据, 促进模型学习到更为精细的特征表示, 以实现更高效、更准确的遥感图像场景分类. 在实验部分, 本文首先在大规模无标签遥感图像数据集上进行预训练, 随后将预训练模型迁移至下游场景分类任务中进行微调. 在多个公开遥感图像数据集上的实验结果表明, 所提模型在自监督预训练阶段能够有效提取图像特征, 并在下游场景分类任务中实现较高的准确率, 展现出良好的鲁棒性和有效性.

基于WOA-VMD和PSO-DSN的短期时空光伏功率预测

赵英男，彭真，阮玉园

2025, 34(8):264-275. DOI: 10.15888/j.cnki.csa.009913 CSTR: 32024.14.csa.009913

摘要 (352) HTML (491) PDF 6.75 K (784) 评论 (0) 收藏

摘要:由于太阳能具有间歇性、不稳定性和随机性, 精确的短期光伏(photovoltaic, PV)功率预测具有较大的挑战, 阻碍了光伏与智能电网的有机整合. 为此, 本文提出了一种名为WVPD (WOA-VMD和PSO-DSN)的方法. 首先, 应用变分模态分解(variational mode decomposition, VMD)获得多个本征模态函数(intrinsic mode function, IMF)分量. 同时, 结合鲸鱼优化算法(whale optimization algorithm, WOA)算法进行模式分量和惩罚因子参数优化, 解决VMD分解不足和模式混合问题. 然后, 利用PV功率和数值天气预报(numerical weather prediction, NWP)数据的空间和时间相关性构建新型双流网络(dual-stream network, DSN), 即结合挤压和激励网络(squeeze-and-excitation networks, SENet)以及双向门控循环单元(bidirectional gated recurrent unit, BiGRU). 同时, 采用粒子群优化算法(particle swarm optimization, PSO)优化DSN中学习率和批量大小. 最后, 验证得出与深度学习混合模型相比, MSE平均提升78.6%, RMSE平均提升53.7%, MAE平均提升37.7%, 所提出的WVPD性能优越. 代码共享于https://github.com/ruanyuyuan/PV-power-forecast.

微信公众号

网站二维码

>综述文章

当期目录

年份

刊期