虚拟专辑

2025, 34(3):1-13. DOI: 10.15888/j.cnki.csa.009796

[摘要](664) [HTML](863) [PDF 2.09 M](1523)

摘要:
基于点云的三维物体识别和检测是计算机视觉和自主导航领域的一个重要研究课题. 如今, 深度学习算法大大提高了三维点云分类的准确性和鲁棒性. 然而, 深度学习网络通常存在网络结构复杂、训练过程耗时等问题. 本文提出了一种三维点云分类网络Point-GBLS, 它将深度学习和宽度学习系统结合在一起. 网络结构简单, 训练时间短. 首先通过基于深度学习的特征提取网络提取点云特征, 然后用改进的宽度学习系统对其进行分类. ModelNet40和ScanObjectNN数据集上的实验表明, Point-GBLS识别准确率分别达到92%以上和78%以上, 训练时间低于同类深度学习方法的50%以上, 优于具有相同骨干的深度学习网络.

2 智能教育领域的知识追踪模型综述

赵娅，托晋宽，单可欣，贾迪

2025, 34(6):1-11. DOI: 10.15888/j.cnki.csa.009903

[摘要](769) [HTML](2739) [PDF 6.77 K](2643)

摘要:
知识追踪技术可以对学生题目作答序列等数据进行分析, 从而准确预测学生的知识点掌握状况, 以帮助教育管理者更精确地对学生进行教学干预, 提升学生的学习效果. 随着时间的推移, 知识追踪技术已经成为实现智能教育目标的重要辅助手段, 并在智能教育领域得到了广泛应用. 本综述主要研究智能教育领域的知识追踪技术发展现状. 首先, 本综述对知识追踪技术进行了概念界定; 随后, 分析了两类智能教育领域的知识追踪模型及其存在的问题, 同步总结了国内外研究者对这些问题的应对策略; 接下来, 探讨了智能教育领域知识追踪模型的实际应用场景; 最后, 明确指出了智能教育领域的知识追踪模型面临的各种挑战, 并对其未来发展进行了展望.

3 基于微表情特征的谎言识别

陈灿鹏，吴桂兴，郭燕，李春杰

2025, 34(4):55-63. DOI: 10.15888/j.cnki.csa.009825

[摘要](598) [HTML](770) [PDF 1.98 M](963)

摘要:
目前, 有多种谎言识别方法, 包括使用测谎仪测谎. 然而这些方法执行起来效果有限, 不仅需要与被测谎对象产生接触, 而且要求相关人员具备专业知识, 不便于实行, 且效果有限. 心理学研究表明, 微表情是人脸上的一种持续时间极其短暂的细微肌肉运动, 能反映人在做出此表情时的真实内心状态. 相关研究表明, 人脸上的微表情特征可以作为谎言识别的线索. 本文研究基于微表情特征的谎言识别, 首先构建一个说谎时的微表情数据集, 命名为MED. 其次, 设计一个基于多层自注意力机制的微表情特征学习模型MEDR, 根据学习到的说谎和未说谎时的微表情特征进行谎言识别. 最后, 本文还在新构建的数据集上, 对本文设计的模型与一些现有模型进行实验对比, 实验结果显示, 本模型在自制高质量数据集上取得94.33%的准确率, 表明本模型在谎言识别方面具备出色的性能.

4 ResMobileNet: 面向云和云影分割的主次残差双支路网络

陆楠，朱亚楠，王键翔，闫飞一，付瑞

2025, 34(6):62-78. DOI: 10.15888/j.cnki.csa.009856

[摘要](448) [HTML](531) [PDF 6.75 K](971)

摘要:
云和云影分割是遥感图像处理的关键任务, 传统深度学习方法常面临漏检、误检和细节丢失等问题. 为解决这些挑战, 本文提出了一种结合ResNet34和MobileNetV3的双支路架构. 首先, MobileNetV3作为次残差支路, 进行初步特征提取, 这一步旨在减少在处理简单特征时的计算负担和参数量. 然后, 将初步特征送入主残差支路ResNet34中进行深层特征提取. 为避免最大池化操作带来的信息丢失, 设计了多尺度条带卷积池化模块(multi-scale strip convolutional pooling module, MS-SCPM), 通过多种池化和条形卷积提取特征, 保留重要细节. 为融合多尺度信息并有效检测小目标, 引入了注意力动态金字塔多尺度特征提取模块(attention-based dynamic pyramid multi-scale feature extraction module, ADPMFEM), 灵活捕捉关键特征并抑制冗余信息. 解码器部分采用了注意力特征感知重组模块(content-aware reassembly of features with attention, CWA), 通过特征图权重优化上采样过程, 改善边缘恢复效果, 提升分割精度. 最后, 在像素分类之前引入可变形卷积进一步优化分割效果. 实验结果表明, 所提模型在Biome 8、HRC-WHU和SPARCS数据集上表现优异, MIoU (mean intersection over union)分别提升至79.19%、90.41%和77.89%, 优于现有技术. 该成果可应用于遥感领域中的云和云影图像分析, 如环境监测、灾害评估和农业监控等领域, 提升数据处理精度和效率.

5 面向交通预测的窗口时空注意力建模方法

王嘉俊，李勇，欧丽云

2025, 34(5):87-95. DOI: 10.15888/j.cnki.csa.009834

[摘要](366) [HTML](557) [PDF 6.75 K](911)

摘要:
在目前交通预测中, 基于深度学习的时空分离建模方法难以有效地表达数据中的时空耦合相关性, 时空联合建模方法虽然可以一定程度上弥补时空分离建模的缺点, 但是其在构建时空超图时存在表达能力不足、计算复杂度高等问题, 为此提出一种改进的窗口时空注意力网络 (window spatial-temporal attention network, W-STANet) 的时空联合建模方法. W-STANet 主要由数据嵌入层、时空相关性建模层、预测头 3 部分组成. 时空相关性建模层通过堆叠多个时空注意力块实现对交通数据时空相关性特征的学习; 同时, 通过引入局部窗口计算方式以及数据移位和交换操作, 大幅度降低了建模过程中的计算复杂度, 并实现了在时空图中局部视角和全局视角的建模. 在5个真实交通公共数据集上的实验结果表明, 相比其他时空联合建模方法有着更好的预测性能. 与其他时空分离建模方法相比, 在大规模路网的数据集上的预测性能较优.

6 基于即插即用分裂算法的盲图像修复扩散模型

侯骁伦，蔺素珍，王彦博，王志茹

2025, 34(3):105-114. DOI: 10.15888/j.cnki.csa.009787

[摘要](405) [HTML](639) [PDF 3.22 M](1677)

摘要:
针对现行即插即用图像修复方法无法处理弱光图像增强等盲图像修复任务中图像退化模型难以精确建模的问题, 本文构造了一种将即插即用分裂算法与引导扩散模型相结合的求解方案. 该方案巧妙地避免了直接求解由复杂退化模型导致的复杂数据子问题, 转而使用真实退化图像来解决数据子问题, 并利用数据子问题的解作为“锚点”间接约束并优化先验子问题的求解过程. 从而确保了图像修复结果能够更紧密地贴近真实的图像恢复目标. 本方法在多个公开数据集上进行验证, 结果表明, 所提算法与现行具有代表性的方法相比, PSNR和SSIM分别平均提升4.89%和9.48%. 实验证明, 所提方法在修复指标上表现更好, 验证了本方法的有效性.

7 基于改进YOLOv8的水稻病害检测

聂俊，朱节中

2025, 34(5):124-137. DOI: 10.15888/j.cnki.csa.009894

[摘要](867) [HTML](726) [PDF 6.74 K](1213)

摘要:
本研究提出了一种改进的YOLOv8模型(FCU-YOLOv8), 用于提升水稻病害检测的精度和效率, 以应对水稻病害种类繁多、背景复杂及病害间特征差异小等问题. 在YOLOv8主干网络的C2f模块基础上, 采用了FasterNeXt模块替换. FasterNeXt模块通过优化网络结构减少了计算量和内存访问量, 同时提高了特征提取的效率, 从而降低模型的推理成本. 设计了C3K模块(多尺度卷积模块)和CPSA模块(卷积注意力机制), 以进一步提升模型对病害区域的特征感知能力. C3K模块允许模型通过灵活的卷积核选择适应不同尺度的病害特征, 而CPSA模块利用注意力机制增强模型对关键信息的捕捉. 为了提升检测框的质量和对密集病害目标的检测效果, 模型采用了优化的UIoU (unified intersection over union)损失函数, 该函数在回归阶段通过平衡边界框的精确性与一致性来提升检测性能. 在自制的8种常见水稻病害图像数据集上, FCU-YOLOv8在多个性能指标上相较于原始YOLOv8有显著提升, 其中mAP@0.5指标达到94.7%, 相较于基线模型提升了2.4%, mAP@0.5:0.95指标达到了67.2%, 相较于基线模型提高3.3%, 在轻量化方面, 模型参数相较于基线模型降低了24.2%, 计算浮点数下降28.7%.与主流算法进行对比实验, 所提算法表现优于目前主流算法, 说明了该网络的有效性.

8 基于改良编码与高斯过程的交互式医学图像分割

张小瑞，莫云菲，孙伟

2025, 34(5):138-150. DOI: 10.15888/j.cnki.csa.009846

[摘要](825) [HTML](711) [PDF 6.71 K](967)

摘要:
医学图像分割是众多医学临床应用的基础与关键组成. 近年来, 交互式分割方法凭借其在复杂临床任务中的高准确性和鲁棒性受到广泛关注. 然而, 现有基于深度学习的交互式分割方法在用户交互的利用上仍有不足, 特别是在交互编码设计和像素分类等方面. 针对上述问题, 本文提出了一种包含“近中心点”和“外边缘点”的混合交互设计, 以保障交互成本并对用户意图进行精准捕捉; 同时, 通过高斯衰减函数对现有测地线距离编码方法进行加权, 以降低图像噪声干扰, 提高交互编码的鲁棒性和准确性; 此外, 结合基于混合核函数的高斯过程分类方法, 在像素分类过程中对用户交互信息进行充分利用, 提升分割精度并赋予模型一定的可解释性. 实验结果表明, 本文所提方法在MSD数据集4个标志性子集的5项分割任务中均表现出较高的分割精度, 尤其在复杂任务(如Pancreas tumour和Colon图像分割)中, Dice系数和ASSD值显著优于现有方法, 体现了其在精准分割和边界处理方面的优势.

9 MRAU-Net: 基于改进U-Net和注意力机制的视网膜血管分割

谢佳锋，廖光忠

2025, 34(6):138-145. DOI: 10.15888/j.cnki.csa.009868

[摘要](994) [HTML](671) [PDF 6.73 K](1050)

摘要:
由于眼底图像背景复杂、毛细血管细小且模糊以及噪声干扰等原因, 传统视网膜血管分割算法容易出现识别不准确和断连等问题. 针对这些问题, 提出一种基于改进U-Net和注意力机制的视网膜血管分割算法(MRAU-Net). 为解决特征提取不充分问题, 设计了多尺度残差卷积模块(MSRCB)来代替U-Net传统的卷积块; 为了减少信息丢失和噪声干扰, 在瓶颈层嵌入双维注意力优化模块(DAOM); 为了减少在编解码过程中造成的信息丢失, 构建了一种新的多尺度密集空洞卷积块(MDCB), 并与传统的跳跃连接相结合. 在DRIVE和CHASE_DB1两个公开数据集上进行了实验, F1-score分别为82.92%、83.75%, AUC分别为98.87%、98.96%, 灵敏度分别为84.50%、83.82%, 准确率分别为97.11%、97.63%. 实验结果表明MRAU-Net较现有优秀算法拥有更优异的性能表现.

10 基于半监督多维度对比学习的噪声标签图像分类

朱定局，叶展昊，何珂仪

2025, 34(5):151-158. DOI: 10.15888/j.cnki.csa.009836

[摘要](404) [HTML](631) [PDF 6.72 K](1006)

摘要:
基于深度学习的人工智能诊断模型严重依赖于高质量的详尽注释数据进行算法训练, 但受到噪声标签信息的影响. 为了增强模型的鲁棒性并防止有噪声的标签记忆, 本文提出了一种基于多维度对比学习的噪声标签图像分类方法, 该方法可以有效地融合多维度对比学习和半监督学习来对抗标签噪声. 具体来说, 提出的方法由3个精心设计的组件组成: 以混合增强图像为输入, 设计了具有动量更新机制的混合特征嵌入模块来挖掘抽象的分布式特征表示. 同时, 通过使用多维度对比学习模块, 结合实例对比学习和类间对比学习, 从不同维度对特征空间中的特征进行调整. 此外, 还利用噪声鲁棒损失函数来确保具有正确标签的样本在学习过程中占主导地位. 在CIFAR-10和CIFAR-100数据集上进行的实验表明, 我们的方法取得了比现有方法更好的结果.

11 基于PEMA和DWT的岩心图像鲁棒水印算法

严宇真，何小海，卿粼波，罗彬彬，滕奇志

2025, 34(3):180-188. DOI: 10.15888/j.cnki.csa.009798

[摘要](322) [HTML](706) [PDF 1.72 M](1277)

摘要:
岩心图像作为地质、油气等行业中极为重要的数字图像资源, 对于科学研究和工程实践至关重要, 其安全性常通过添加数字水印的方式来保障. 在数字化的进程中, 岩心图像在存储、传输和网页发布等情况下常会进行JPEG压缩. 然而, 现存基于深度学习的图像数字水印算法在应对JPEG压缩时, 视觉质量和鲁棒性方面仍存在显著不足. 本文提出了一个端到端图像鲁棒水印算法, 旨在解决JPEG压缩条件下岩心图像的鲁棒水印嵌入问题. 为高效融合载体图像与水印的特征, 本文引入了多尺度跨时空注意力(pyramid efficient multi-scale attention, PEMA)模块, 该模块通过独特的跨空间交互策略和通道间关系的构建方式, 能够有效捕获不同方向上的长程依赖以及不同尺度下的特征信息. 为了实现视觉不可感知性, 本文通过离散小波变换(discrete wavelet transform, DWT)将数字水印嵌入到载体图像的低频分量中, 并引入DLL (DWT LL sub-band loss)损失函数, 以提升水印图像的视觉质量. 实验结果表明, 该算法在针对JPEG压缩的鲁棒性和视觉不可感知性上均优于现有主流算法.

12 基于键值注意力机制的目标检测算法性能优化

张征鑫，张笃振

2025, 34(4):195-206. DOI: 10.15888/j.cnki.csa.009807

[摘要](1067) [HTML](752) [PDF 2.74 M](1189)

摘要:
随着注意力机制在目标检测中的广泛应用, 进一步提升特征提取能力成为研究的重点. 提出了一种新的注意力机制, 旨在优化特征交互过程, 提升检测性能. 所提机制移除了传统自注意力中的查询操作, 采用深度可分离卷积高效提取局部与全局信息, 并通过键和值的加权融合实现特征聚合. 本文方法有效降低了计算复杂度, 增强了模型对重要特征的捕捉能力. 通过在5个不同类型的数据集上进行验证, 实验结果表明, 该注意力机制在处理小目标检测、遮挡处理以及复杂场景下的表现优异, 显著提高了检测精度与效率. 可视化分析进一步证实了其在特征提取中的有效性.

13 跨模态通道权重调整的半监督分类网络

张力予

2025, 34(3):189-200. DOI: 10.15888/j.cnki.csa.009786

[摘要](508) [HTML](648) [PDF 4.75 M](1880)

摘要:
地物分类是遥感图像领域的重要研究方向, 近年来高光谱图像和激光雷达数据联合分类的技术备受关注. 现有的深度学习模型的分类性能显著依赖于标注样本的丰富度及优质程度, 这在实际应用中常构成重大挑战. 此外, 很多模型未能有效地利用高光谱图像和激光雷达数据的信息互补性. 针对上述问题, 本文提出了一种跨模态通道权重调整的半监督双分支分类网络, 通过注意力机制, 深入剖析两种数据通道之间的相似度, 并据此自适应地调整各通道的权重. 同时, 本文结合一致性正则化与伪标签的半监督方法, 有效地利用了未标记样本的信息. 在针对Houston和MUUFL这两个标志性的联合数据集进行高光谱图像与激光雷达数据联合分类的实验中, 所提方法展现出相较于现有分类模型的显著优势, 有效提高了分类精度与效率.

14 基于U-BiFormer的遥感图像地表分类模型

安立君，刘向阳

2025, 34(5):196-201. DOI: 10.15888/j.cnki.csa.009841

[摘要](873) [HTML](597) [PDF 6.74 K](846)

摘要:
遥感图像地表分类对于城市规划、土地利用、环境监测和地表温度反演等工作而言十分重要. 针对相似地表类别存在误检的问题以及遥感图像地表类别不均衡的问题, 本文提出了一种U型Transformer模型U-BiFormer, 该模型在BiFormer的基础上使用U型解码器, 使用所有阶段解码器的输出来预测分割图, 提高了模型捕捉图像中的细节和上下文信息的能力, 使模型能更好分割相似类别. 对U型解码器特有的混合注意力模块进行改进, 增大当前阶段特征在混合特征中所占的比例, 让解码器更注重对当前阶段特征的细化, 提升模型对相似类别的分割效果. 使用CE+Focal混合损失函数替代常规交叉熵损失函数, 应对遥感图像地表类别分布不均的问题. 实验证明, 在GID大型遥感图像数据集上, 本文方法能更好地分割相似类别, 并且取得了优于当前主流模型的分割结果(Acc (81.99% )和mIoU (71.04%)).

15 基于多尺度特征加权融合注意力的密集人群计数算法

时东亮，葛艳，徐慕君

2025, 34(3):210-219. DOI: 10.15888/j.cnki.csa.009777

[摘要](334) [HTML](577) [PDF 3.58 M](1692)

摘要:
针对人群计数面临的人头尺寸不统一、人群密度分布不均匀、背景复杂干扰等问题, 提出一种解决多尺度变化加强关注人群区域的卷积神经网络模型 (multi-scale feature weighted fusion attention convolutional neural network, MSFANet). 该网络前端采用改进的VGG-16模型对输入人群图像做第1步的粗粒度特征提取, 中间加入多尺度特征提取模块提取图像的多尺度特征信息. 随后添加注意力模块对多尺度特征进行特征加权. 后端利用锯齿状空洞卷积模块增大感受野, 以提取图像的细节特征, 生成高质量的人群密度图. 对该模型在3个公开数据集上进行实验, 结果显示, 在Shanghai Tech Part B数据集上MAE (平均绝对误差)达到7.8, MSE (均方误差)达到12.5. 在Shanghai Tech Part A数据集上MAE达到64.9, MSE达到108.4. 在UCF_CC_50数据集上MAE达到185.1, MSE达到249.8. 实验结果证实该模型有较好的准确度和鲁棒性.

16 层聚合网络和跨阶段自适应空间特征融合的小目标检测

于龙昆，占强波，沈红，王子昊

2025, 34(1):248-257. DOI: 10.15888/j.cnki.csa.009686

[摘要](890) [HTML](878) [PDF 2.71 M](1287)

摘要:
传统的目标检测算法存在检测效果不佳及检测效率低等问题, 针对这些问题, 提出了一种基于YOLOv7网络改进的小目标检测方法. 该方法在原网络的高效层聚合模块(efficient layer aggregation network, ELAN)中添加了更多路径, 且将不同路径中的特征信息有效融合后引入SKNet网络, 使得模型更加关注网络中不同尺度大小的特征, 提取出更多有效信息; 同时为了加强小目标对空间信息的感知能力, 设计了一个eSE模块连接在ELAN末端, 以此构建新的高效层聚合网络模块(enhanced features efficient layer aggregation network, EF-ELAN), 该模块完整地保留了图像特征信息, 提高了网络的泛化能力. 同时设计了一种CS-ASFF (cross stage-adaptively spatial feature fusion)模块来应对小目标检测出现的特征尺度不一致问题, 该模块基于 ASFF网络和Nest连接方式进行改进, 对特征金字塔的每一张图片进行卷积、池化等操作提取权重, 将特征信息作用在某一层上, 同时利用其余特征层来加强网络的特征处理能力. 实验结果表明, 本文提出的算法在DIOR数据集和DOTA数据集上的平均精准率分别提高了1.5%、2.1%, 实验结果验证了所提出的算法能够有效地提升小目标的检测效果.

17 融合上下文增强与图像频率引导的MVS方法

陈曦，刘美，陈嘉升

2025, 34(3):259-267. DOI: 10.15888/j.cnki.csa.009824

[摘要](256) [HTML](661) [PDF 2.35 M](1564)

摘要:
基于学习的多视图立体匹配算法目前成果显著, 但是仍然存在的卷积感受野受限以及忽略图像频率信息导致在低纹理、重复和非兰伯曲面匹配性能不足的问题, 针对以上问题提出了上下文增强与图像频率引导的多视图立体匹配网络 CAF-MVSNet. 首先, 在特征提取阶段, 将上下文增强模块融合到特征金字塔网络中, 有效地扩大网络的感受野. 然后引入了图像频率引导注意力模块, 通过编码图像的不同频率获取图像的线条、形状、纹理和颜色等信息, 增强图像的远程上下文联系的同时进一步解决低纹理、重复和非兰伯曲面的精确匹配问题, 以实现可靠的特征匹配. 在 DTU 数据集上的实验结果显示, 与经典的级联模型CasMVSNet相比综合误差(overall)提升了12.3%, 展现了优秀的性能. 此外, 在Tanks and Temples数据集上也取得了不错的效果, 展现了良好的泛化性能.

18 动态手语识别综述

王哲楷，冯云霞，王佳文

2025, 34(5):1-13. DOI: 10.15888/j.cnki.csa.009879

[摘要](727) [HTML](2335) [PDF 6.71 K](2620)

摘要:
手语是用手势比量动作, 根据手势的变化模拟形象或者音节以构成的一定意思或词语, 手语是听力障碍者或无法用言语交流的人普遍采用的一种交际工具. 随着计算机视觉和深度学习的不断发展, 手语识别技术随之出现并不断发展, 使普通人与聋哑人士交流成为可能. 然而, 动态手语的复杂性和变化性使得对手语的精确检测和识别仍具挑战. 为了推动该领域的研究, 本文深入调研现有的动态手语识别方法和技术. 首先, 调研了动态手语识别技术的发展历程和研究现状、常用动态手语数据集以及手语识别方法的评价指标. 其次, 重点调研了动态手语识别常用的深度学习模型, 探讨了动态手语识别技术面临的问题以及对应的解决方案. 最后, 基于手语识别现状, 总结了当前动态手语识别面临的问题, 并对下阶段如何提升手语识别性能进行分析和展望.

19 基于深度学习的急性缺血性脑卒中病灶分割与检测综述

毛天驰，李杨，李明，孙兴，马金刚

2025, 34(1):11-25. DOI: 10.15888/j.cnki.csa.009709

[摘要](1822) [HTML](3235) [PDF 1.79 M](3175)

摘要:
急性缺血性脑卒中是临床上最常见的卒中类型, 因其症状突发且治疗时间窗较短等特点, 成为全球导致残疾和死亡的重要因素之一. 随着人工智能领域的迅速发展, 深度学习技术在急性缺血性脑卒中的诊疗中展现出巨大的潜力. 深度学习模型能够快速高效地根据患者脑部图像对病灶进行分割与检测. 本文介绍深度学习模型的发展历程和用于脑卒中研究的常用公开数据集. 针对计算机断层扫描(computerized tomography, CT)和磁共振成像(magnetic resonance imaging, MRI)衍生出的多种模态和扫描序列, 详细阐述了深度学习技术在急性缺血性脑卒中病灶分割与检测领域的研究进展, 总结并分析了相关研究的改进思路. 最后, 指出了深度学习在该领域现存的挑战并提出了可能的解决方案.

20 基于奇异值分解的适应微调

林志鹏，郭峥嵘，张伟志，郭躬德

2025, 34(1):276-284. DOI: 10.15888/j.cnki.csa.009731

[摘要](875) [HTML](915) [PDF 1.64 M](1007)

摘要:
大语言模型的兴起对自然语言处理领域产生了深远影响. 随着计算资源的增长和模型规模的扩大, 大语言模型在自然语言处理中的应用潜力日益显现. 然而, 广泛使用的低秩适应微调方法在面对模型规模增大时, 遇到了微调效率和存储成本等方面的挑战. 为了解决这一问题, 本文提出了一种基于奇异值分解的适应微调方法. 该方法只需将奇异值分解得到的对角矩阵和缩放向量作为可训练参数, 从而在降低训练成本的同时, 实现了在多个自然语言处理任务上的性能提升. 实验结果显示, 基于奇异值分解的适应微调方法在GLUE和E2E基准测试中的性能超越了同等数量级的方法. 通过与常用的参数高效微调方法进行比较, 发现基于奇异值分解的适应微调方法在减少可训练参数数量和提高微调效率方面具有显著优势, 并在可训练参数微调效率实验中实现了最高的性能增益. 在未来的研究中, 将专注于进一步优化基于奇异值分解的适应微调方法, 在更广泛的任务和更大规模的模型中实现更高效的微调.

21 基于深度学习的伪造人脸检测技术综述

赵娅，郜明超，姚文达，徐锋

2025, 34(4):1-17. DOI: 10.15888/j.cnki.csa.009839

[摘要](2008) [HTML](2515) [PDF 2.99 M](2755)

摘要:
近年来, 随着伪造人脸技术的快速发展, 通过伪造人脸技术合成的人脸已经非常逼真, 人眼很难鉴别, 部分不法分子对伪造人脸技术的非法应用已经对社会稳定、个人隐私造成了恶劣影响, 因此伪造人脸检测技术的重要性日益凸显. 本文系统地探讨了伪造人脸检测技术的现状, 主要从伪造人脸图像和伪造人脸视频的检测两个方面进行分析. 在伪造人脸图像检测方面, 重点讨论了基于图像空间域和频率域的方法、身份一致性检测以及人脸区域定位技术的应用. 在伪造人脸视频检测方面, 研究聚焦于时空特征融合、生理特征利用及视听信息的结合. 此外, 本文介绍了常用的评估指标, 系统分析了多种重要数据集, 包括其特点和适用场景. 同时还指出当前文献中的局限性, 例如对抗样本的鲁棒性不足、检测方法对新型伪造技术的适应性差等问题. 基于这些分析, 我们提出了未来可能的研究方向, 包括跨域检测技术的优化、新算法的探索及模型的可解释性研究. 本文不仅为研究者提供了对伪造人脸检测技术的全面了解, 也为后续研究指明了发展方向, 具有重要的理论价值和实际应用意义.

22 基于改进U-Net的遥感影像农作物提取

周林，武黎黎，李响

2025, 34(6):89-96. DOI: 10.15888/j.cnki.csa.009880

[摘要](1125) [HTML](565) [PDF 6.71 K](894)

摘要:
我国作为一个人口众多的农业大国, 农作物的种植面积在预测我国的粮食产量和确保粮食安全方面起着至关重要的作用. 但是传统图像分割技术在提取遥感影像中地物信息时耗时费力, 且未必能达到好的效果, 为解决此类问题, 本文用深度学习方法研究对高清遥感影像中的多种农作物进行精细化分类提取, 以合肥市周边地区农田中的水稻、玉米、大豆这3种农作物为实验样本. 在研究中, 提出一种改进的U-Net网络模型来对农作物进行提取的方法, 使提取精度达94.86%. 为了实现对农作物边界的进一步优化, 使用CascadePSP边缘优化算法对实验结果进行细化, 使提取精度高达96.72%. 实验结果表明, 本文的改进U-Net与CascadePSP算法结合, 使高清遥感影像中农作物的提取效果, 优于大多数深度学习模型.

23 深度学习在皮肤癌病变分类诊断中的应用进展

刘天宇，刘静，马金刚，陈天真，李明

2024, 33(12):1-15. DOI: 10.15888/j.cnki.csa.009708

[摘要](1463) [HTML](3006) [PDF 1.79 M](4619)

摘要:
皮肤癌是最常见和最致命的癌症类型之一, 患病数量在世界范围内急剧增加. 如果没有在早期阶段诊断出来, 它可能转移, 导致高死亡率. 结合近几年的相关文献就传统机器学习和深度学习两种学习方法在皮肤癌病变诊断中的应用作一系统综述, 为皮肤癌诊断的深入研究提供相应的参考价值, 首先对几个皮肤病公共可获取数据集进行整理, 其次分析和比较不同的学习算法在皮肤癌病变分类中的应用, 更好地了解它们在实际应用中的优势和局限性, 重点阐述在卷积神经网络领域的分类诊断. 在深入了解这些算法的基础上, 还将探讨它们在处理皮肤疾病时的性能差异、改进思路. 最终, 通过对当前挑战和未来发展方向的探讨, 将为进一步提升皮肤癌早期诊断系统的性能和可靠性提供有益的参考和建议.

24 融合CNN和Transformer的图像去噪网络

姜文涛，卜艺凡

2024, 33(7):39-51. DOI: 10.15888/j.cnki.csa.009555

[摘要](1184) [HTML](2031) [PDF 4.39 M](2358)

摘要:
目前基于深度学习的图像去噪算法无法综合考虑局部和全局的特征信息, 进而影响细节处的图像去噪效果, 针对该问题, 提出了融合CNN和Transformer的图像去噪网络(hybrid CNN and Transformer image denoising network, HCT-Net). 首先, 提出CNN和Transformer耦合模块(CNN and Transformer coupling block, CTB), 构造融合卷积和通道自注意力的双分支结构, 缓解单纯依赖Transformer造成的高额计算开销, 同时动态分配注意力权重使网络关注重要图像特征. 其次, 设计自注意力增强卷积模块(self-attention enhanced convolution module, SAConv), 采用递进式组合模块和非线性变换, 减弱噪声信号干扰, 提升在复杂噪声水平下识别局部特征的能力. 在6个基准数据集上的实验结果表明, HCT-Net相比当前一些先进的去噪方法具有更好的特征感知能力, 能够抑制高频的噪声信号从而恢复图像的边缘和细节信息.

25 S-UNet: 基于U-Net和LSTM的短临降水预报网络

许梦，杜景林，刘蕊

2024, 33(11):48-57. DOI: 10.15888/j.cnki.csa.009683

[摘要](620) [HTML](1446) [PDF 1.85 M](2510)

摘要:
随着深度学习技术的发展, 多数研究工作将短临降水预报视为雷达回波序列的预测任务. 由于降水复杂性的非线性时空变换, 现有的短临预报存在准确性低、外推时效短、难以应对复杂的非线性时空变换等缺点. 为解决以上问题, 本文基于U-Net和LSTM提出了S-UNet短临降水预报网络. 首先本文提出了S-UNet layer (SL)模块, 以帮助网络更好地提取雷达序列特征, 构建时空变化的整体趋势, 从而提高网络效率, 增加网络的外推时长. 其次, 为更好地应对雷达回波的变形、积累和消散的复杂性, 增强网络对复杂的空间关系的捕获能力和运动轨迹的模拟能力, 本文基于LSTM构建了雷达特征模块radar feature (RF). 最后, 将SL模块和RF模块与U-Net框架结合, 提出了S-UNet短临降水预报网络, 并在KNMI数据集上实现了先进的性能. 实验结果表明, 在KNMI的NL-50和NL-20数据集上, 本文所提的方法与主流方法相比, 海德克技能得分和关键成功指数分别提高了5.25% (6.57%)和2.17% (4.75%), 达到了0.30 (0.29)和0.72 (0.58); 准确率提高了2.10% (1.35%), 达到了0.80 (0.80); 假接受率降低了4.27% (1.80%), 达到了0.24 (0.38). 除此之外, 本文通过消融实验证明了所提出模块及结合方法的有效性.

微信公众号

网站二维码

虚拟专辑

当期目录

年份

刊期