2025, 34(5):1-13. DOI: 10.15888/j.cnki.csa.009879 CSTR: 32024.14.csa.009879
摘要:手语是用手势比量动作, 根据手势的变化模拟形象或者音节以构成的一定意思或词语, 手语是听力障碍者或无法用言语交流的人普遍采用的一种交际工具. 随着计算机视觉和深度学习的不断发展, 手语识别技术随之出现并不断发展, 使普通人与聋哑人士交流成为可能. 然而, 动态手语的复杂性和变化性使得对手语的精确检测和识别仍具挑战. 为了推动该领域的研究, 本文深入调研现有的动态手语识别方法和技术. 首先, 调研了动态手语识别技术的发展历程和研究现状、常用动态手语数据集以及手语识别方法的评价指标. 其次, 重点调研了动态手语识别常用的深度学习模型, 探讨了动态手语识别技术面临的问题以及对应的解决方案. 最后, 基于手语识别现状, 总结了当前动态手语识别面临的问题, 并对下阶段如何提升手语识别性能进行分析和展望.
2025, 34(5):14-23. DOI: 10.15888/j.cnki.csa.009845 CSTR: 32024.14.csa.009845
摘要:离线到在线强化学习中, 虽然智能体能够通过预先收集的离线数据进行初步策略学习, 但在线微调阶段, 早期过程常常表现出不稳定性, 且微调结束后, 性能提升幅度较小. 针对这一问题, 提出了两种关键设计: 1)模拟退火的动态离线-在线缓冲池; 2)模拟退火的行为约束衰减. 第1种设计在训练过程中利用模拟退火思想动态选择离线数据或者在线交互经验, 获得优化的更新策略, 动态平衡在线训练的稳定性和微调性能; 第2种设计通过带降温机制的行为克隆约束, 改善微调早期使用在线经验更新导致的性能突降, 在微调后期逐渐放松约束, 促进模型性能提升. 实验结果表明, 所提出的结合动态缓冲池和时间递减约束的离线到在线强化学习(dynamic replay buffer and time decaying constraints, DRB-TDC)算法在Halfcheetah、Hopper、Walker2d这3个经典MuJoCo测试任务中, 在线微调训练后性能分别提升45%、65%、21%, 所有任务的平均归一化得分比最优基线算法提升10%.
2025, 34(5):24-30. DOI: 10.15888/j.cnki.csa.009843 CSTR: 32024.14.csa.009843
摘要:联邦学习(federated learning, FL)是一种新兴的分布式机器学习框架, 旨在解决数据隐私保护和高效分布式计算的问题. 它允许多个客户端在不共享数据的前提下协同训练全局模型, 但由于各客户端的数据分布存在异质性, 单一的全局模型往往难以满足不同客户端的个性化需求. 针对这一问题, 本文提出了一种结合自蒸馏和解耦知识蒸馏的联邦学习算法, 该算法通过保留客户端的历史模型作为教师模型, 对客户端本地模型的训练进行蒸馏指导, 得到新的本地模型后上传到服务端进行加权平均聚合. 在知识蒸馏中, 通过对目标类知识和非目标类知识进行解耦蒸馏, 实现了对个性化知识的更充分传递. 实验结果表明, 本文提出的方法在CIFAR-10和CIFAR-100数据集上的分类准确率均超过了现有的联邦学习方法.
2025, 34(5):31-40. DOI: 10.15888/j.cnki.csa.009835 CSTR: 32024.14.csa.009835
摘要:烟雾检测在早期火灾预警当中非常重要. 现有检测算法基本是基于确定性的卷积神经网络来进行的, 然而确定性的神经网络往往会给出非常自信的预测结果, 即使它完全不知道某些区域当中是否有目标对象, 尤其是烟雾边缘区域有着更加透明的效果, 致使该区域和周围环境极易混淆, 因此检测算法对该区域并不能进行很好的判断, 进而造成大量的假阳性. 因此, 本文提出一种改进的DeepLabV3+算法, 首先, 该算法基于贝叶斯思想优化DeepLabV3+从而输出非确定性的特征编码, 以量化预测图像中不确定性的大小, 校准模型的学习过程. 其次基于预处理思想对特征编码进行预处理, 降低无关干扰特征信息量, 并且强化DeepLabV3+网络中特征融合能力, 充分利用网络提取到的多尺度特征信息. 最后将DeepLabV3+网络中上采样算子优化为CARAFE算子, 降低上采样过程中重要信息的丢失. 模型在公开的SMOKE5K数据集上取得良好的性能, MIoU指标达到了92.41%.
2025, 34(5):41-51. DOI: 10.15888/j.cnki.csa.009861 CSTR: 32024.14.csa.009861
摘要:滚动轴承在机械系统中至关重要, 低频率故障通常由于其发生概率低而导致数据样本稀缺, 这使得相关数据的采集和处理面临挑战, 若处理不当可导致严重的安全隐患和经济损失. 为应对这一问题, 本研究提出了一种结合传统信号处理方法与深度学习模型的卷积神经网络(CNN)与多层感知机(MLP)的双路径故障诊断模型. 特征工程提取方面, 本研究采用离散小波变换(DWT)和连续小波变换(CWT)相结合的方法, 结合平均下采样技术从原始信号中提取多尺度的时频特征和时域特征. 模型包含两条路径: 一条通过将efficient channel attention (ECA)注意力机制嵌入残差CNN中提取特征工程的时频特征, 另一条利用MLP处理下采样的多尺度时域特征, 最后融合两者进行分类. 小样本评估显示, 该特征工程方法在凯斯西储大学(CWRU)数据集上平均诊断准确率达到99.34%, 高于传统方法的98.97%. 混合CNN-MLP双路径模型在CWRU数据集上达到了99.90%的高准确率, 在江南大学(JNU)数据集上取得98.38%的准确率. 表明其在小样本滚动轴承故障诊断中的应用潜力.
2025, 34(5):52-63. DOI: 10.15888/j.cnki.csa.009890 CSTR: 32024.14.csa.009890
摘要:高清晰、低延时显示中国画纹理是中国画VR展示应用的重要需求, 移动VR头显有限的运行时内存、显存难以实现大量高分辨率中国画纹理同时加载及实时显示. 此外, 受限于移动VR设备的低显示分辨率和纹理mimap管理机制, 用户通过头显直接观察到最清晰纹理细节比较困难. 本文给出一种改进的虚拟纹理方法, 主要对已有虚拟纹理方法的分块请求计算和分块加载两个阶段进行优化. 在分块请求计算阶段, 加入放大辅助视角的分块请求计算, 利用Compute Shader并行加速处理分块请求参数纹理, 通过哈希减少Compute Shader构建结果缓存的计算量. 在分块加载阶段, 采用无锁队列异步加载提高纹理分块加载效率, 使用数量阈值限定的请求分块直接加载策略减少高清晰纹理分块显示延迟. 本文构建包含单幅和多幅中国画的虚拟观赏场景, 通过模拟用户观赏行为来测试本文方法的运行性能及显示效果. 实验结果表明, 本文方法结合放大辅助视角在移动VR设备上可高清晰、低延时呈现多幅超高分辨率中国画纹理. 与Unreal SVT等已有虚拟纹理方法相比, 本文方法可在大量纹理分块条件下保持高帧率运行, 实现更低的高清晰纹理分块显示延迟.
2025, 34(5):64-76. DOI: 10.15888/j.cnki.csa.009852 CSTR: 32024.14.csa.009852
摘要:精确识别组织器官和病变区域是医学影像分析中最重要的任务之一. 在现有的医学影像语义分割研究中, 基于U-Net结构的模型占据了主导地位. TransUNet结合了CNN和Transformer的优势, 弥补了两者在捕捉长程依赖和提取局部特征方面的不足, 但在提取和复原特征的位置时仍不够准确. 针对此问题, 提出了一种多注意力融合机制的医学影像分割模型MAF-TransUNet. 该模型首先在Transformer层之前增加一个多注意力融合模块(MAF)来增强位置信息的表达; 然后在跳跃连接中再次结合多注意模块(MAF)使位置信息能够有效地传递到解码器一侧; 最后在解码阶段使用深度卷积注意力模块(DCA)保留更多的空间信息. 实验结果显示, MAF-TransUNet相较TransUNet在Synapse多器官分割数据集和ACDC自动心脏诊断数据集上的Dice系数分别提升了3.54%和0.88%.
2025, 34(5):77-86. DOI: 10.15888/j.cnki.csa.009844 CSTR: 32024.14.csa.009844
摘要:在个性化可解释推荐系统中, 用户ID是实现个性化的重要标识符. 现有的算法通常采用encoder-decoder架构来生成个性化可解释的推荐, 然而这种方法增加了算法的复杂性和计算成本, 限制了算法的精度表现. 为了解决这一问题, 本文提出了一个融合自注意力机制和提示学习的个性化可解释推荐算法(PERSP). 该算法通过在BERT的输入层引入提示学习并对其进行微调, 以增强算法的可解释性. 为了克服BERT无法直接使用用户ID进行个性化推荐, 该算法利用自注意力机制将用户ID与其他命令进行拼接, 将拼接后的序列输入到BERT的输入层中进行训练和推理. 为了验证该算法的有效性, 在TripAdvisor、Amazon和Yelp等数据集上进行对比实验. 在TripAdvisor数据集上, PERSP算法相比其他基线算法, RMSE和MAE分别提升了3.7%和4.7%; 在Amazon数据集上, 提升了1.05%和4.1%; 在Yelp数据集上, 提升了1%和2.5%. 结果表明该算法在个性化可解释推荐任务中具有较好的性能表现, 有效提升了推荐系统的准确性和可解释性.
2025, 34(5):87-95. DOI: 10.15888/j.cnki.csa.009834 CSTR: 32024.14.csa.009834
摘要:在目前交通预测中, 基于深度学习的时空分离建模方法难以有效地表达数据中的时空耦合相关性, 时空联合建模方法虽然可以一定程度上弥补时空分离建模的缺点, 但是其在构建时空超图时存在表达能力不足、计算复杂度高等问题, 为此提出一种改进的窗口时空注意力网络 (window spatial-temporal attention network, W-STANet) 的时空联合建模方法. W-STANet 主要由数据嵌入层、时空相关性建模层、预测头 3 部分组成. 时空相关性建模层通过堆叠多个时空注意力块实现对交通数据时空相关性特征的学习; 同时, 通过引入局部窗口计算方式以及数据移位和交换操作, 大幅度降低了建模过程中的计算复杂度, 并实现了在时空图中局部视角和全局视角的建模. 在5个真实交通公共数据集上的实验结果表明, 相比其他时空联合建模方法有着更好的预测性能. 与其他时空分离建模方法相比, 在大规模路网的数据集上的预测性能较优.
2025, 34(5):96-106. DOI: 10.15888/j.cnki.csa.009860 CSTR: 32024.14.csa.009860
摘要:多维时间序列数据广泛应用于多个领域, 对其有效的表征对下游分析与挖掘任务至关重要. 传统形态元变换方法通过将单维时间序列投影到形态元空间再行融合的方式进行特征提取, 未考虑不同维度时序间的复杂的耦合关系, 同时形态元长度的限制也妨碍了序列上长程依赖关系的获取. 针对这些问题, 提出了一种耦合维度依赖与长程依赖的多维时序表征方法(CDT-ShapeNet). 该方法中维度信息表征模块通过维度注意力机制捕捉不同维度之间的依赖关系, 而长期信息表征模块则利用注意力机制和长短期记忆网络学习长期时间依赖. 在9个UEA数据集上进行验, 结果显示, 较之于对比方法, 平均准确率提高了6.8%, 验证了其在多维时间序列表征方面的有效性.
2025, 34(5):107-115. DOI: 10.15888/j.cnki.csa.009881 CSTR: 32024.14.csa.009881
摘要:大型视觉语言模型(LVLM)在理解视觉信息和运用语言表达方面展现出了非凡的能力. 然而, 在LVLM进行问答的过程中, 它通常受到物体幻觉问题的困扰, 具体表现为生成的文本内容看似合理, 但实际上却与图片中的信息不相符, 造成了文本与图片之间的不匹配现象. 为解决这一问题, 本文通过实验发现, 物体注意力的缺失是导致物体幻觉的关键因素. 为缓解此问题, 本文引入了图像对比增强方法(ICE). ICE是一种无需训练、操作简便的方法, 通过对比原始视觉输入与增强视觉输入所产生的输出分布, 有效提升模型对图片的感知能力, 确保生成的内容与视觉输入紧密契合, 从而生成上下文一致且准确的输出. 实验结果显示, ICE方法在无需额外训练或外部工具的情况下, 便能显著减轻不同LVLM的物体幻觉问题, 并在大型视觉语言模型基准MME测试中同样表现出色, 验证了其广泛的适用性和有效性. 本文代码链接: ChangGuiyong/ICE.
2025, 34(5):116-123. DOI: 10.15888/j.cnki.csa.009891 CSTR: 32024.14.csa.009891
摘要:点击诱饵是指用夸张或惊奇的标题吸引用户点击, 近年来已在新闻门户和社交媒体等在线应用中呈现泛滥趋势, 导致用户的不良体验甚至引起网络欺诈. 大模型由于强大的语义理解和文本生成能力, 已在一系列自然语言处理任务中取得优异的效果. 但是, 大模型在面对如点击诱饵检测这类决策边界不清晰的特定领域问题时很容易产生幻觉, 为此, 我们提出基于双层多智能体大模型的方法, 在不需要微调整个大模型的情况下, 有效提升了点击诱饵检测的准确率. 具体来说, 通过第1层中智能体的内部投票, 和第2层中不同智能体的交叉投票, 最终取得了良好的检测效果. 通过对3个基准数据集进行验证, 本文提出的方法比最先进的大模型和提示学习方法的准确率分别高出近13%和10%.
2025, 34(5):124-137. DOI: 10.15888/j.cnki.csa.009894 CSTR: 32024.14.csa.009894
摘要:本研究提出了一种改进的YOLOv8模型(FCU-YOLOv8), 用于提升水稻病害检测的精度和效率, 以应对水稻病害种类繁多、背景复杂及病害间特征差异小等问题. 在YOLOv8主干网络的C2f模块基础上, 采用了FasterNeXt模块替换. FasterNeXt模块通过优化网络结构减少了计算量和内存访问量, 同时提高了特征提取的效率, 从而降低模型的推理成本. 设计了C3K模块(多尺度卷积模块)和CPSA模块(卷积注意力机制), 以进一步提升模型对病害区域的特征感知能力. C3K模块允许模型通过灵活的卷积核选择适应不同尺度的病害特征, 而CPSA模块利用注意力机制增强模型对关键信息的捕捉. 为了提升检测框的质量和对密集病害目标的检测效果, 模型采用了优化的UIoU (unified intersection over union)损失函数, 该函数在回归阶段通过平衡边界框的精确性与一致性来提升检测性能. 在自制的8种常见水稻病害图像数据集上, FCU-YOLOv8在多个性能指标上相较于原始YOLOv8有显著提升, 其中mAP@0.5指标达到94.7%, 相较于基线模型提升了2.4%, mAP@0.5:0.95指标达到了67.2%, 相较于基线模型提高3.3%, 在轻量化方面, 模型参数相较于基线模型降低了24.2%, 计算浮点数下降28.7%.与主流算法进行对比实验, 所提算法表现优于目前主流算法, 说明了该网络的有效性.
2025, 34(5):138-150. DOI: 10.15888/j.cnki.csa.009846 CSTR: 32024.14.csa.009846
摘要:医学图像分割是众多医学临床应用的基础与关键组成. 近年来, 交互式分割方法凭借其在复杂临床任务中的高准确性和鲁棒性受到广泛关注. 然而, 现有基于深度学习的交互式分割方法在用户交互的利用上仍有不足, 特别是在交互编码设计和像素分类等方面. 针对上述问题, 本文提出了一种包含“近中心点”和“外边缘点”的混合交互设计, 以保障交互成本并对用户意图进行精准捕捉; 同时, 通过高斯衰减函数对现有测地线距离编码方法进行加权, 以降低图像噪声干扰, 提高交互编码的鲁棒性和准确性; 此外, 结合基于混合核函数的高斯过程分类方法, 在像素分类过程中对用户交互信息进行充分利用, 提升分割精度并赋予模型一定的可解释性. 实验结果表明, 本文所提方法在MSD数据集4个标志性子集的5项分割任务中均表现出较高的分割精度, 尤其在复杂任务(如Pancreas tumour和Colon图像分割)中, Dice系数和ASSD值显著优于现有方法, 体现了其在精准分割和边界处理方面的优势.
2025, 34(5):151-158. DOI: 10.15888/j.cnki.csa.009836 CSTR: 32024.14.csa.009836
摘要:基于深度学习的人工智能诊断模型严重依赖于高质量的详尽注释数据进行算法训练, 但受到噪声标签信息的影响. 为了增强模型的鲁棒性并防止有噪声的标签记忆, 本文提出了一种基于多维度对比学习的噪声标签图像分类方法, 该方法可以有效地融合多维度对比学习和半监督学习来对抗标签噪声. 具体来说, 提出的方法由3个精心设计的组件组成: 以混合增强图像为输入, 设计了具有动量更新机制的混合特征嵌入模块来挖掘抽象的分布式特征表示. 同时, 通过使用多维度对比学习模块, 结合实例对比学习和类间对比学习, 从不同维度对特征空间中的特征进行调整. 此外, 还利用噪声鲁棒损失函数来确保具有正确标签的样本在学习过程中占主导地位. 在CIFAR-10和CIFAR-100数据集上进行的实验表明, 我们的方法取得了比现有方法更好的结果.
2025, 34(5):159-172. DOI: 10.15888/j.cnki.csa.009802 CSTR: 32024.14.csa.009802
摘要:气密封螺纹连接(PTC)上扣质量的智能诊断对于确保油管在高温、高压、酸性气体条件下的稳固性和密封性至关重要. 准确的诊断依赖于分析不同工况下的PTC曲线以反映上扣质量, 但在实际工业检测中获取大量有效数据面临挑战. 本文提出了一种端到端分类模型, 它结合了异步优化的二维深度卷积生成对抗网络(AoT-DCGAN)和用于PTC曲线诊断的二维卷积神经网络(P-CNN), 旨在提高小样本下的分类性能. 本文提出的方法首先利用AoT-DCGAN来识别真实样本的分布模式, 并生成合成样本. 随后利用P-CNN模型在扩增的数据集上进行训练, 实现PTC曲线的智能诊断. 同时, 本文使用了一种新颖的权重优化策略, 即异步优化(AO), 用来缓解生成器优化阶段的梯度消失问题. 本文提出的方法基于不同数据扩增比率下的召回率、特异性、F1分数、精确度和混淆矩阵进行了性能评估, 结果表明, 随着数据集规模的扩增, 模型的分类能力也在增强, 在数据集规模达到1200张时分类效果最佳. 此外, 在相同的训练集中, P-CNN模型的表现优于传统的机器学习和深度学习模型, 在AC、ATI和NDT曲线上的最佳分类准确率分别达到了95.9%、95.5%和96.7%. 最后, 研究证实在DCGAN的训练过程中使用异步优化会使损失函数更稳定地下降.
2025, 34(5):173-184. DOI: 10.15888/j.cnki.csa.009815 CSTR: 32024.14.csa.009815
摘要:随着电子健康档案(EHR)的普及, 相似患者检索已成为支持辅助诊断和制定治疗计划等临床决策的重要任务. 然而, EHR 数据具有高维度、异构性且数量大的特点. 为了有效整合多模态临床数据并实现高效检索, 本文提出了一种基于深度哈希的多模态临床数据相似病例检索模型——MCDF. 该模型根据不同模态数据的特性, 将结构化文本数据、非结构化文本数据、图像数据分别使用多层感知机(multi-layer perceptron, MLP)模型、BioBERT、BioMedCLIP进行特征提取, 并通过自注意力机制模块进行特征融合. 利用三元组损失函数引导模型直接生成能够有效代表样本的哈希码, 通过哈希码快速比对实现样本检索, 不仅能提高检索的准确性, 还能显著提升检索效率. 本文基于公开数据集MIMIC-III, 采用归一化折扣累计收益均值(MNDCG)和均值平均精度(MAP)作为评价指标, 将MCDF模型与传统哈希方法(如spectral hashing)和先进哈希方法(如deep hashing network)进行比较. 实验结果显示, MCDF模型的表现优于所有基线模型, 验证了本文提出模型的优越性.
2025, 34(5):185-195. DOI: 10.15888/j.cnki.csa.009840 CSTR: 32024.14.csa.009840
摘要:为了提高青光眼疾病的预测和诊断的准确性, 避免人工筛查造成的误差累积, 本文提出了一种位置注意力引导下的青光眼自动筛查方法. 所提出的模型包含了眼底图像注意力预测和青光眼疾病分类两个部分. 首先, 提出了一个基于结合深度理解卷积核和通道激励连接空间金字塔的U型网络进行眼底图像注意力预测, 并将解码过程中的特征图作为空间信息引导青光眼分类. 其次, 提出了在青光眼分类模型中使用的位置注意力机制, 该注意力机制结合不同来源的通道信息与空间信息对来自外部编码器的特征图进行动态调整. 青光眼分类模型的主分支堆叠了多个位置注意力模块和残差模块用于实现分类任务, 同时设计了一个用于分割任务的辅助分支协助模型训练和优化, 提高分类精度. 所提方法基于青光眼LAG数据集测试的精准度、召回率和AUC指标分别达到97.84%、97.75%和98.57%, 表现优于所有对比模型. 通过可视化注意力激活热图得到的模型决策关注区域更加准确, 辅助临床诊断中对病灶的定位, 并为临床诊断的结果提供有效的参考.
2025, 34(5):196-201. DOI: 10.15888/j.cnki.csa.009841 CSTR: 32024.14.csa.009841
摘要:遥感图像地表分类对于城市规划、土地利用、环境监测和地表温度反演等工作而言十分重要. 针对相似地表类别存在误检的问题以及遥感图像地表类别不均衡的问题, 本文提出了一种U型Transformer模型U-BiFormer, 该模型在BiFormer的基础上使用U型解码器, 使用所有阶段解码器的输出来预测分割图, 提高了模型捕捉图像中的细节和上下文信息的能力, 使模型能更好分割相似类别. 对U型解码器特有的混合注意力模块进行改进, 增大当前阶段特征在混合特征中所占的比例, 让解码器更注重对当前阶段特征的细化, 提升模型对相似类别的分割效果. 使用CE+Focal混合损失函数替代常规交叉熵损失函数, 应对遥感图像地表类别分布不均的问题. 实验证明, 在GID大型遥感图像数据集上, 本文方法能更好地分割相似类别, 并且取得了优于当前主流模型的分割结果(Acc (81.99% )和mIoU (71.04%)).
2025, 34(5):202-211. DOI: 10.15888/j.cnki.csa.009842 CSTR: 32024.14.csa.009842
摘要:篇章要素识别(discourse element identification)的主要任务是识别篇章要素单元并进行分类. 针对篇章要素识别对上下文依赖性理解不足的问题, 提出一种基于BiLSTM-Attention的识别篇章要素模型, 提高议论文篇章要素识别的准确率. 该模型利用句子结构和位置编码来识别句子的成分关系, 通过双向长短期记忆网络(bidirectional long short-term memory, BiLSTM)进一步获得深层次上下文相关联的信息; 引入注意力机制(attention mechanism)优化模型特征向量, 提高文本分类的准确度; 最终用句间多头自注意力(multi-head self-attention)获取句子在内容和结构上的关系, 弥补距离较远的句子依赖问题. 相比于HBiLSTM、BERT等基线模型, 在相同参数、相同实验条件下, 中文数据集和英文数据集上准确率分别提升1.3%、3.6%, 验证了该模型在篇章要素识别任务中的有效性.