目标检测

2025, 34(2):19-27. DOI: 10.15888/j.cnki.csa.009743

[摘要](1347) [HTML](904) [PDF 1.59 M](1569)

摘要:
矿井下光照缺失、环境复杂, 安全帽目标尺寸较小, 导致一般目标检测模型对安全帽的检测效果不佳. 针对上述问题, 提出了一种基于改进YOLOv8s的矿井下安全帽佩戴检测模型. 首先, 将effectiveSE模块和YOLOv8s Neck层中的C2f模块相结合, 设计得到新的C2f-eSE模块, 提高了网络结构的特征提取能力, 并用Wise-EIoU损失函数替代CIoU损失函数, 提高了模型的鲁棒性; 其次, 在检测头中引入空间和通道重建卷积模块SCConv, 并根据参数共享思想设计了新的轻量化SPS检测头, 降低了模型的参数量和计算复杂度; 最后在模型中增加一层P2检测层, 使模型的特征提取网络融入更多的浅层信息, 提高了对小尺寸目标的检测能力. 实验结果表明, 改进后模型的mAP50指标提升了3.2%, 参数量降低了1.6%, GFLOPs降低了5.6%.

2 多模态融合的野外扬尘环境三维目标检测

杨文浩，况立群，王松，张珏

2025, 34(2):92-101. DOI: 10.15888/j.cnki.csa.009762

[摘要](436) [HTML](744) [PDF 2.08 M](981)

摘要:
对于配备多种传感器的自动驾驶车辆, 在野外扬尘环境中进行高精度三维目标检测是一项重大挑战, 野外地形的多变性导致采集目标的区域特征差异性加剧, 同时扬尘颗粒物还会模糊目标特征. 为了克服这些困难, 本文提出了多模态特征动态融合的三维目标检测方法, 构建了多级特征自适应融合模块和特征对齐增强模块, 其中, 多级特征自适应融合模块动态调整模型对全局级特征和区域级特征的关注程度, 充分利用多级感受野, 减少区域差异对识别效果的影响; 而特征对齐增强模块则在多模态特征对齐之前增强感兴趣区域的特征表达, 有效抑制扬尘等干扰因素. 实验结果表明, 提出方法在自建野外数据集中比基线的平均精度提高了2.79%, 在KITTI数据集的困难级别检测中提高了1.7%, 表现出较好的鲁棒性和准确性.

3 基于混合注意力和动态采样的遥感图像目标检测

蔡清，王净雨，梁宏涛

2025, 34(3):171-179. DOI: 10.15888/j.cnki.csa.009795

[摘要](978) [HTML](705) [PDF 1.54 M](1224)

摘要:
针对遥感图像目标检测中的复杂背景干扰, 目标密集堆积导致遥感图像目标检测模型效果差的问题, 通过对YOLOv5s目标检测模型进行改进. 首先使用混合注意力机制对CBAM (convolutional block attention module)加以改进并添加至骨干网络中, 使得模型所提取到的特征含有局部信息和全局信息, 以加强模型识别复杂背景下目标的能力; 其次使用超轻量级的动态上采样器DySample结构, 减少模型参数并提高检测效率, 最后使用EIoU损失函数提高对于待检测目标的定位水平. 在RSOD和DIOR数据集上进行了实验验证, 结果表明, 改进后的YOLOv5s在遥感图像目标检测中的准确度要比原始模型高7.8%, 同时能够满足遥感图像实时目标检测的需求; 此外与其他目标检测模型相比, 改进模型也能保有一定优势.

4 基于键值注意力机制的目标检测算法性能优化

张征鑫，张笃振

2025, 34(4):195-206. DOI: 10.15888/j.cnki.csa.009807

[摘要](1066) [HTML](746) [PDF 2.74 M](1187)

摘要:
随着注意力机制在目标检测中的广泛应用, 进一步提升特征提取能力成为研究的重点. 提出了一种新的注意力机制, 旨在优化特征交互过程, 提升检测性能. 所提机制移除了传统自注意力中的查询操作, 采用深度可分离卷积高效提取局部与全局信息, 并通过键和值的加权融合实现特征聚合. 本文方法有效降低了计算复杂度, 增强了模型对重要特征的捕捉能力. 通过在5个不同类型的数据集上进行验证, 实验结果表明, 该注意力机制在处理小目标检测、遮挡处理以及复杂场景下的表现优异, 显著提高了检测精度与效率. 可视化分析进一步证实了其在特征提取中的有效性.

5 改进YOLOv8的道路损伤检测

王瀚毅，李春彪，宋衡

2025, 34(1):179-189. DOI: 10.15888/j.cnki.csa.009737

[摘要](1590) [HTML](715) [PDF 3.16 M](2149)

摘要:
针对道路损伤检测面临的多尺度目标、复杂的目标结构、样本分布不均及难易样本对边界框回归的影响等问题, 本研究提出了一种基于改进YOLOv8的道路损伤检测算法. 该方法通过引入动态蛇形卷积 (dynamic snake convolution, DSConv) 替代原有C2f (faster implementation of CSP bottleneck with 2 convolutions) 模块中的部分Conv, 以自适应聚焦于细小而曲折的局部特征, 增强对几何结构的感知. 在每个检测头前引入高效多尺度注意力 (efficient multi-scale attention, EMA) 模块, 实现跨维度交互, 捕获像素级别关系, 提升对复杂全局特征的泛化能力. 同时, 增设小目标检测层以提高小目标检测精度. 最后, 提出Flex-PIoUv2策略, 通过线性区间映射和尺寸适应性惩罚因子, 有效缓解样本分布不均和锚框膨胀问题. 实验结果表明, 该改进模型在RDD2022数据集上的F1分数、平均精度均值 (mAP50、mAP50-95) 分别提高了1.5百分点、2.1百分点和1.2百分点. 此外, 在GRDDC2020和China road damage数据集上的验证结果显示, 该算法具有良好的泛化性.

6 结合重参数化与多层次特征融合的航拍图像小目标检测

曹洁，李立晶，梁浩鹏

2025, 34(4):218-227. DOI: 10.15888/j.cnki.csa.009811

[摘要](363) [HTML](613) [PDF 1.94 M](1001)

摘要:
针对无人机航拍图像目标尺寸小、分布密集且被遮挡造成误检漏检等问题, 提出一种结合重参数化思想与多层次特征融合的航拍图像小目标检测算法. 首先, 利用重参数化思想设计了重参数化卷积模块 (reparameterized convolution module, RCM), 与C2f模块结合设计了C2f-RCM模块, 通过扩大感受野有效绘制上下文信息, 更好地提取图像中的细微特征. 其次, 为解决颈部网络在特征融合部分造成的信息丢失问题, 提出一种多层次特征融合模块(multi-level feature fusion module, MFFM), 该模块利用跨层次间的信息融合, 有效减少了在遮挡情况下的漏检现象, 使得网络在检测大、中、小目标时能够显著提升准确度. 最后, 提出一种Inner-Shape IoU边界框回归损失函数, 通过构建辅助边框和关注边界框的自身形状, 以增强模型的收敛速度. 实验结果表明, 与基线模型相比, 本文方法在VisDrone2019中, mAP@0.5、Precision、Recall分别提高了5.7%、5.7%、2.4%, 在AI-TOD中, mAP@0.5、Precision、Recall提升了3.7%、3.9%、5.3%, 验证了本文方法在航拍图像小目标检测方面的有效性.

7 基于轻量化YOLOv8模型的苹果快速识别

聂忠强，朱明

2025, 34(1):200-210. DOI: 10.15888/j.cnki.csa.009749

[摘要](896) [HTML](780) [PDF 5.88 M](1295)

摘要:
针对自然果园环境下苹果果实的识别, 本文提出了一种改进YOLOv8n模型的轻量化苹果检测算法. 首先, 通过使用DSConv和FEM特征提取模块的组合来替换主干网络中的部分常规卷积进行轻量化改进, 缩减卷积过程中的浮点数和计算量; 为了在轻量化过程中保持性能, 在特征处理的过程中, 引入结构化状态空间模型构建CBAMamba模块, 使用Mamba结构高效处理特征; 此后将检测头处的卷积替换为RepConv, 并减小卷积层; 最后, 更改边界框损失函数为动态非单调聚焦机制WIoU, 提高模型收敛速度, 进一步提升模型检测性能. 实验表明, 在公开数据集上, 本文提出的 YOLOv8改进算法比原始YOLOv8n算法分别提升1.6%的mAP@0.5和1.2%的mAP@0.5:0.95, 与此同时提升了8.0%的FPS并降低了13.3%的模型参数量, 轻量化的设计使之在机器人和嵌入式系统部署领域具有较强的实用性.

8 面向自动驾驶的高效视图转换

刘家辉，官敬超，方鸿清，巢建树

2025, 34(2):246-253. DOI: 10.15888/j.cnki.csa.009758

[摘要](377) [HTML](665) [PDF 2.29 M](1082)

摘要:
在自动驾驶技术的领域中, 利用鸟瞰图(bird’s eye view, BEV)进行3D目标检测任务已经引起了广泛的关注. 针对现有相机至鸟瞰视图转换方法, 实时性不足、部署复杂度较高的难题, 提出了一种简单高效、无需任何特殊工程操作即可部署的视图转换方法. 首先, 针对完整图像特征存在大量冗余信息, 引入宽度特征提取器并辅以单目3D检测任务, 提炼图像的关键特征, 确保过程中信息损失的最小化; 其次, 提出一种特征引导的极坐标位置编码方法, 增强相机视角与鸟瞰图表示之间的映射关系与模型空间理解能力; 最后, 通过单层交叉注意力机制实现可学习BEV嵌入与宽度图像特征的交互, 从而生成高质量的BEV特征. 实验结果表明: 在nuScenes验证集上该网络架构与LSS (lift, splat, shoot)相比mAP从29.5%提升到32.0%, 提升了8.5%, NDS从37.1%提升到38.0%, 提升了2.4%, 表明该模型在自动驾驶场景下的3D目标检测任务的有效性. 同时相比于LSS在延迟上降低了41.12 %.

9 层聚合网络和跨阶段自适应空间特征融合的小目标检测

于龙昆，占强波，沈红，王子昊

2025, 34(1):248-257. DOI: 10.15888/j.cnki.csa.009686

[摘要](890) [HTML](875) [PDF 2.71 M](1283)

摘要:
传统的目标检测算法存在检测效果不佳及检测效率低等问题, 针对这些问题, 提出了一种基于YOLOv7网络改进的小目标检测方法. 该方法在原网络的高效层聚合模块(efficient layer aggregation network, ELAN)中添加了更多路径, 且将不同路径中的特征信息有效融合后引入SKNet网络, 使得模型更加关注网络中不同尺度大小的特征, 提取出更多有效信息; 同时为了加强小目标对空间信息的感知能力, 设计了一个eSE模块连接在ELAN末端, 以此构建新的高效层聚合网络模块(enhanced features efficient layer aggregation network, EF-ELAN), 该模块完整地保留了图像特征信息, 提高了网络的泛化能力. 同时设计了一种CS-ASFF (cross stage-adaptively spatial feature fusion)模块来应对小目标检测出现的特征尺度不一致问题, 该模块基于 ASFF网络和Nest连接方式进行改进, 对特征金字塔的每一张图片进行卷积、池化等操作提取权重, 将特征信息作用在某一层上, 同时利用其余特征层来加强网络的特征处理能力. 实验结果表明, 本文提出的算法在DIOR数据集和DOTA数据集上的平均精准率分别提高了1.5%、2.1%, 实验结果验证了所提出的算法能够有效地提升小目标的检测效果.

10 基于融合采样和深尺约束的单目3D目标检测

孙虎成，臧可

2025, 34(4):34-44. DOI: 10.15888/j.cnki.csa.009819

[摘要](479) [HTML](681) [PDF 4.03 M](1126)

摘要:
针对单目图像中不同深度目标的尺度差异所导致的单目3D目标检测算法精度不佳的问题, 提出一种基于融合采样和深尺约束的检测算法. 首先, 为增强采样特征对不同尺度目标的表征能力, 构建多尺度特征融合模块 (multi-scale fusion module, MFM), 通过分层聚合和迭代聚合对不同层级、不同尺度的特征进行融合采样, 从而提高对目标隐式尺度特征的提取能力. 此外, 构造深度尺度相关化模块 (depth-scale correlation module, DSCM), 利用深度与尺度之间的线性投影约束将不同尺度的目标补偿式放缩至同一特征水平, 以此平衡模型对不同距离目标的关注度. 基于KITTI数据集和Waymo数据集的定量结果表明, 所提出的算法相较于同类算法在多种难度下的整体平均精度AP_3D分别提升了1.56个百分点和3.07个百分点, 验证了算法的有效性及泛化性, 同时基于两类数据集的定性结果验证了该算法显著缓解了目标尺度差异对检测性能造成的影响.

11 基于双分支卷积网络的水下目标检测

王信诚，朱明

2025, 34(6):188-195. DOI: 10.15888/j.cnki.csa.009862

[摘要](359) [HTML](670) [PDF 6.75 K](819)

摘要:
水下目标检测是水下作业中不可或缺的重要技术. 针对水下图像中背景复杂、待检测目标大小形状不同及存在重叠与遮挡等问题, 本文提出了一种基于双分支卷积网络的水下目标检测算法. 首先, 采用两个并行卷积神经网络作为骨干网络, 其中一个分支引入ECA注意力机制, 另一个分支采用可形变卷积, 以提高模型的特征提取能力. 其次, 使用AFF模块有效融合两个分支提取到的特征. 最后, 采用PANet金字塔结构作为颈部网络, 实现多尺度特征融合, 同时增加高分辨率检测头, 以进一步提高对小目标的敏感性. 本文在公开水下数据集RUOD上进行对比实验, 结果表明, 本文的改进算法在RUOD数据集上的mAP50达到了86.8%, 相较于基准YOLOv8n模型提升了2.7%, 并且相比于同规模的其他常见目标检测模型表现更优.

12 基于自适应Token池化与集合预测增强的目标检测

刘耀，陈东方，王晓峰

2025, 34(2):74-83. DOI: 10.15888/j.cnki.csa.009765

[摘要](344) [HTML](786) [PDF 2.37 M](909)

摘要:
基于Transformer的目标检测算法往往存在着精度不足, 收敛速度慢的问题. 许多研究针对这些问题进行改进, 取得了一定的成果. 但是这些研究大都忽视了Transformer结构应用于目标检测领域时存在的两个不足之处. 首先, 自注意力运算结果缺乏多样性. 其次, 因集合预测难度大, 使得模型在匹配目标的过程中表现不稳定. 为了弥补上述缺陷, 首先设计了自适应token池化模块, 增加自注意力权重的多样性. 其次, 设计了一种基于粗预测的锚框定位模块, 并利用该模块为查询提供位置先验信息, 从而提高二分图匹配过程的稳定性. 最后, 设计了基于组的去噪任务, 通过训练模型对位于目标附近的正负查询进行区分, 从而提高模型进行集合预测的能力. 实验结果表明, 本文提出的改进算法在COCO数据集上取得了较好的训练结果. 与基线模型相比, 改进算法在检测精度与收敛速度上有较大提升.

13 基于广义高效层聚合网络和共享卷积的卡通角色面部检测

闫博文，刘永泽，夏海东，宋晓强

2025, 34(2):154-164. DOI: 10.15888/j.cnki.csa.009767

[摘要](982) [HTML](861) [PDF 2.83 M](918)

摘要:
卡通角色面部检测是一项比人脸检测更具挑战性的任务, 它涉及许多困难的场景. 针对卡通角色面部间存在巨大差异的特点, 本文提出了一种卡通角色面部检测算法, 命名为YOLO-DEL. 首先, 基于GELAN融合BDD设计了DBBNCSPELAN模块, 旨在减小模型体积的同时增强检测性能. 接下来, 引入一种称为ELA的多尺度注意机制, 用于改善SPPF结构, 增强主干模型的特征提取能力. 最后, 设计了新的共享卷积检测头, 使网络更轻便. 同时也用Shape-IoU代替原CIoU损失函数, 提升模型的收敛效率. 在iCartoonFace数据集上进行实验, 通过消融实验验证得到的模型, 并将其与YOLOv3-tiny、YOLOv5n和YOLOv6等模型进行比较. 改进模型YOLO-DEL的mAP达到90.3%, 比YOLOv8提高了1.2%, 参数量为1.69M, 与YOLOv8相比参数量降低47%, GFLOPs 降低44%. 实验表明, 本文方法能有效提高卡通角色面部的检测精度, 同时缩小网络模型的大小, 验证本文方法的有效性.

14 复杂条件下交通标识识别

黄健，展越，胡翻

2025, 34(1):110-117. DOI: 10.15888/j.cnki.csa.009734

[摘要](517) [HTML](717) [PDF 5.34 M](1087)

摘要:
该研究旨在深入探究在复杂多变的交通环境下交通标志与信号灯的联合检测问题, 分析并解决恶劣天气、低光照和图像背景干扰等不利因素对检测精度的影响. 为此, 采用了一种改进RT-DETR网络的策略. 基于资源有限的运行环境, 并为提高模型对于遮挡以及小目标的检测能力, 提出PE-ResNet (ResNet with PConv and efficient multi-scale attention)网络作为主干网络. 为了增强特征融合能力, 提出了NCFM (new cross-scale feature-fusion module)模块, 有助于更好地整合图像中的语义信息和细节信息, 对复杂场景的理解更为全面. 最后引入MPDIoU损失函数, 更精确地衡量目标框之间的位置关系. 改进后的网络相较于基线模型参数量降低了约14%. 在CCTSDB 2021数据集、S2TLD数据集以及自制的MTST (multi-scene traffic signs)数据集上, mAP50:95分别增加了1.9%、2.2%和3.7%. 实验结果表明, 改进之后的RT-DETR模型可以有效地改进复杂场景下目标检测精度.

15 基于深度学习的SAR弱小目标检测研究进展

赵志成，蒋攀，王福田，肖云，李成龙，汤进

2024, 33(6):1-15. DOI: 10.15888/j.cnki.csa.009531

[摘要](1946) [HTML](4685) [PDF 4.13 M](7381)

摘要:
随着合成孔径雷达(SAR)技术的不断进步, 大范围观测和高分辨率成像使得SAR图像中包含了大量特征微弱的小尺寸目标, 通常涵盖飞机、车辆、油罐、船舶等高价值民用目标和关键军事目标, 这类目标尺寸较小、特征微弱、稠密相连、形态多变, 对它们进行精确的检测是当前SAR图像解译的难题. 随着深度学习技术的发展, 研究者们针对SAR弱小目标的成像特性和检测挑战, 通过对深度学习网络的精细调整和优化, 成功地推动了本领域的进步. 本文将全面回顾基于深度学习的SAR图像弱小目标检测, 以数据集和方法为研究对象, 深入分析SAR弱小目标检测任务所面临的主要挑战, 总结最新检测方法的特点和应用场景, 并汇总整理了公开数据集与常用性能评估指标. 最后, 总结本任务的应用现状, 并对未来的发展趋势进行展望.

16 多尺度特征融合与交互的伪装目标检测网络

张成，刘研，宋慧慧

2024, 33(8):90-97. DOI: 10.15888/j.cnki.csa.009595

[摘要](1509) [HTML](1223) [PDF 2.92 M](1729)

摘要:
伪装目标检测是一项在复杂场景中定位和识别伪装目标的任务. 目前基于深度神经网络的方法已初步运用, 但在复杂场景下遇到干扰时, 许多方法无法充分利用目标的多级特征来提取丰富的语义信息, 仅依靠固定尺寸特征识别伪装目标. 为解决这一问题, 本文提出了一种基于多尺度特征融合交互的伪装目标检测网络. 该网络包含两个创新设计: 多尺度特征感知模块和双阶段邻级交互模块. 前者旨在通过结合多尺度特征的方式充分捕获复杂场景中丰富的局部-全局场景对比信息. 后者则是整合来自相邻层的特征以利用跨层相关性将有价值的上下文信息从编码器传输到解码器网络. 本文在CHAMELEON、CAMO-Test、COD10K-Test这3个公共数据集上对提出的方法进行了评测并与当前的主流方法对比. 实验结果表明, 本文方法的性能超越了当前的主流方法, 在各项指标上达到了优异的性能水平.

17 基于改进奖励机制的深度强化学习目标检测

陈盈君，武月，刘力铭

2024, 33(10):106-114. DOI: 10.15888/j.cnki.csa.009639

[摘要](1324) [HTML](1457) [PDF 983.35 K](3022)

摘要:
为提高深度强化学习目标检测模型的检测精度和检测速度, 对传统模型进行改进. 针对特征提取不充分的问题, 使用融入通道注意力机制的VGG16特征提取模块作为强化学习的状态输入, 来更全面地捕获图像中的关键信息; 针对仅使用交并比作为奖励出现的评价不精准问题, 使用额外考虑了真实框与预测框中心点距离以及长宽比的改进奖励机制, 使奖励更加合理; 为加速训练过程的收敛并增强智能体对当前状态和动作评价的客观性, 使用Dueling DQN算法进行训练. 在PASCAL VOC2007和PASCAL VOC2012数据集上进行实验, 实验结果表明, 该检测模型仅需4–10个候选框即可检测到目标. 与Caicedo-RL相比, 准确率提高9.8%, 最终预测框和真实框的平均交并比提高5.6%.

18 基于注意力与量化感知的航拍红外目标检测

周进，裴晓芳

2024, 33(11):111-120. DOI: 10.15888/j.cnki.csa.009699

[摘要](451) [HTML](1063) [PDF 2.43 M](1546)

摘要:
针对航拍场景下红外目标对比度低、识别精度差、检测难度大等问题, 提出一种基于注意力与量化感知的航拍红外目标检测算法. 首先, 利用DCNv2替代ELAN模块中的3×3卷积, 构建了DC-ELAN模块, 有效提升了模型捕捉局部和全局特征的能力, 进而强化了网络的特征表达能力; 其次, 通过巧妙地将SE注意力机制融入SPPCSPC模块和ELAN模块中, 设计出了SE-SPPCSPC模块和SE-ELAN模块, 有助于增强特征图的空间自注意力, 模型能够更好地关注目标区域; 此外, 引入QARepVGG模块, 提升模型的量化感知能力并增强其对量化误差的鲁棒性; 最后, 引入DyHead模块, 该模块可以根据输入图像的不同动态调整检测头, 提高模型对不同大小、形状目标的检测能力, 从而进一步提高红外目标检测的准确性和鲁棒性. 实验结果表明, 相较于原模型, 改进后的YOLOv7-tiny模型在计算量未增长的情况下, mAP@0.5值提升了3.4%, mAP@0.5:0.95值提升了4.8%, 显著提高了模型检测精度.

19 基于全局上下文注意力特征融合金字塔网络的遥感目标检测

孙文赟，车嘉航，金忠

2024, 33(9):114-122. DOI: 10.15888/j.cnki.csa.009631

[摘要](1057) [HTML](1786) [PDF 3.14 M](1915)

摘要:
遥感目标检测往往具有图像尺度变化大、目标微小、密集排列和宽高比过大的特性, 给高精度定向目标检测造成困难. 本文提出了一种全局上下文注意力特征融合金字塔网络. 首先, 本文设计了一种三重注意力特征融合模块, 它能够更好地融合语义和尺度不一致的特征. 然后引入层内调节方法改进并提出了一个全局上下文信息增强网络, 对含有高级语义信息的深层特征的进行细化, 提升表征能力. 在此基础上, 以全局集中调节的思想设计了全局上下文注意力特征融合金字塔网络, 利用注意力调制特征自上而下地调节浅层多尺度特征. 在几个公开数据集中进行了广泛实验, 实验结果的高精度评价指标均优于目前先进的模型.

20 基于改进Faster R-CNN的肺结核病原体检测

鞠瑞文，孙振，李庆党

2024, 33(11):121-130. DOI: 10.15888/j.cnki.csa.009679

[摘要](1113) [HTML](1244) [PDF 2.95 M](1548)

摘要:
本文提出一种基于Faster R-CNN的肺结核病原体检测方法, 以更高的准确率和更低的漏检率检测肺结核. 首先, 通过Mosaic数据增强方法对数据集进行扩充, 提高模型泛化能力, 同时引入K-means聚类算法, 对所用数据集重新聚类来生成对的锚点初始候选框大小. 其次, 将Faster R-CNN中的原始特征提取网络替换为Res2Net, 并将其卷积核全部替换为空洞卷积, 在与原卷积相比参数量不变的情况下, 增大了感受野. 再者, 引入改进后的GC-FPN模块, 使模型在轻量化的同时更好的关注小目标信息. 最后, 引入ROI Align, 解决候选框和初始回归位置存在偏差的问题. 实验结果表明, 在公开数据集上, 改进的Faster R-CNN模型与原本的Faster R-CNN算法相比, 准确率提高了2.7%, 召回率提升了1.4%, 该算法不仅在结核图像数据集上得到了验证, 而且具有较高的准确率.

21 基于Transformer的跨尺度交互学习伪装目标检测

李建东，王岩，曲海成

2024, 33(2):115-124. DOI: 10.15888/j.cnki.csa.009395

[摘要](1970) [HTML](1926) [PDF 3.77 M](2551)

摘要:
伪装目标检测(COD)旨在精确且高效地检测出与背景高度相似的伪装物体, 其方法可为物种保护、医学病患检测和军事监测等领域提供助力, 具有较高的实用价值. 近年来, 采用深度学习方法进行伪装目标检测成为一个比较新兴的研究方向. 但现有大多数COD算法都是以卷积神经网络(CNN)作为特征提取网络, 并且在结合多层次特征时, 忽略了特征表示和融合方法对检测性能的影响. 针对基于卷积神经网络的伪装目标检测模型对被检测目标的全局特征提取能力较弱问题, 提出一种基于Transformer的跨尺度交互学习伪装目标检测方法. 该模型首先提出了双分支特征融合模块, 将经过迭代注意力的特征进行融合, 更好地融合高低层特征; 其次引入了多尺度全局上下文信息模块, 充分联系上下文信息增强特征; 最后提出了多通道池化模块, 能够聚焦被检测物体的局部信息, 提高伪装目标检测准确率. 在CHAMELEON、CAMO以及COD10K数据集上的实验结果表明, 与当前主流的伪装物体检测算法相比较, 该方法生成的预测图更加清晰, 伪装目标检测模型能取得更高精度.

22 基于YOLO的钢缆表面损坏检测

刘际驰，吕后坤，李伟

2024, 33(1):134-140. DOI: 10.15888/j.cnki.csa.009364

[摘要](1277) [HTML](1642) [PDF 1.54 M](2135)

摘要:
为了解决检测钢缆表面损坏时检测设备资源有限、时间过长等问题, 将深度学习的先进技术以及卷积神经网络(CNN)应用于钢缆表面损坏检测. 提出了一种基于YOLO的缺陷检测网络模型, 将GhostNet融入主干网络, 并基于ShuffleNet及注意力机制提出了新的特征提取模块(ShuffleC3), 再对Head部分进行剪枝改进. 实验结果表明, 改进后网络相比基线YOLOv5s的平均精度提高1.1%, 参数量和计算量分别降低了43.4%和31%, 模型大小减少了42.3%. 可以在降低网络计算成本的同时, 保持较高的识别精确度, 更好地满足了对钢缆材料表面损坏检测的要求.

23 面向改装电动车的中小目标检测

黄峻，刘涌

2024, 33(12):89-96. DOI: 10.15888/j.cnki.csa.009597

[摘要](1265) [HTML](956) [PDF 2.84 M](1095)

摘要:
由于电动车的普及, 越来越多的电动车进行非法改装雨棚. 然而, 这种改装行为会增加一些安全隐患. 首先, 挡雨板会遮挡骑行者视野, 增加事故的风险. 其次当速度过快时, 挡雨板也会在不经意间擦伤行人, 带来极大的安全隐患, 给交通安全带来了严重威胁. 本文提出了一种改进的YOLOv7-tiny算法, 用于电动车非法改装检测. 首先在网络的结构上加入BiFormer注意力机制, 不仅可以捕获更多电动车细节的信息, 而且可以使得模型更加关注一些较小的目标信息. 其次将改进的特征金字塔结构和特征融合网络的张量拼接操作进行结合, 提升对中小型目标的检测能力. 最后对框架的ELAN模块和SPPCSPC模块进行改进和优化, 可以在不增加过多参数量的同时, 提升对中小目标的检测精度, 增强提取特征的效果.

24 改进YOLOv8的水面小目标检测算法

张瑶，陈姚节

2024, 33(4):152-161. DOI: 10.15888/j.cnki.csa.009445

[摘要](2287) [HTML](2135) [PDF 2.29 M](3578)

摘要:
针对水面目标检测中的噪声干扰和小目标的漏检问题, 提出一种改进YOLOv8的水面小目标检测算法YOLOv8-WSSOD (YOLOv8-water surface small object detection). 首先, 为降低水面复杂环境在主干网络下采样过程中产生的噪声干扰, 提出基于BiFormer双层路由注意力机制构建的C2fBF (C2f-BiFormer)模块, 在特征提取过程中保留细粒度的上下文特征信息; 其次, 针对水面小目标的漏检问题, 新增一个更小的检测头, 提升网络对小目标的感知力, 并在Neck端引入GSConv和Slim-neck, 减轻模型复杂度并保持精度; 最后, 使用MPDIoU损失函数解决CIoU损失函数的局限性, 以提高模型检测准确率. 实验结果表明, 相较于原始YOLOv8算法, 该算法在水面小目标上平均准确率mAP@0.5提升了4.6%, mAP@0.5:0.95提升了2.2%, 并且改进后的算法检测速度达到86f/s, 能有效实现对水面小目标快速、准确的检测.

25 高阶深度可分离无人机图像小目标检测算法

郭伟，王珠颖，金海波

2024, 33(5):144-153. DOI: 10.15888/j.cnki.csa.009471

[摘要](763) [HTML](1718) [PDF 1.88 M](2127)

摘要:
当前无人机图像中存在小目标数量众多、背景复杂的特点, 目标检测中易造成漏检误检率较高的问题, 针对这些问题, 提出一种高阶深度可分离无人机图像小目标检测算法. 首先, 结合CSPNet结构与ConvMixer网络, 深度可分离卷积核, 获取梯度结合信息, 并引入递归门控卷积C3模块, 提升模型的高阶空间交互能力, 增强网络对小目标的敏感度; 其次, 检测头采用两个头部进行解耦, 分别输出特征图分类和位置信息, 加快模型收敛速度; 最后, 使用边框损失函数EIoU, 提高检测框精准度. 在VisDrone2019数据集上的实验结果表明, 该模型检测精度达到了35.1%, 模型漏检率和误检率有明显下降, 能够有效地应用于无人机图像小目标检测任务. 在DOTA 1.0数据集和HRSID数据集上进行模型泛化能力测试, 实验结果表明, 该模型具有良好的鲁棒性.

微信公众号

网站二维码

目标检测

当期目录

年份

刊期