2025年第34卷第11期文章目次

2025, 34(11):1-19. DOI: 10.15888/j.cnki.csa.010002 CSTR: 32024.14.csa.010002

摘要 (1081) HTML (476) PDF 7.06 K (1532) 评论 (0) 收藏

摘要:随着智能交通系统的快速发展, 车联网(IoV)对实时计算与低延迟服务的需求激增. 车载边缘计算(VEC)通过将任务卸载至边缘节点显著降低了传输延迟. 然而, 传统算法在复杂动态交通环境下对任务卸载适应性不足. 深度强化学习(DRL)拥有处理复杂任务的能力, 能够为车辆在复杂动态环境下学习最优的卸载策略. 首先梳理车联网架构、通信技术及VEC的核心卸载技术. 其次介绍了DRL的基础理论、方法分类以及多智能体协作机制. 然后, 从车-车、车-边缘层和云-边-端资源协同计算卸载这3个维度, 全面综述了国内外研究现状. 最后, 展望了基于深度强化学习的车载边缘计算与任务卸载未来可能研究的方向.

大语言模型提示优化越狱攻击统一框架

夏寒，王枭，周玮康，熊立茂，顾滢双，桂韬

2025, 34(11):20-29. DOI: 10.15888/j.cnki.csa.009980 CSTR: 32024.14.csa.009980

摘要 (444) HTML (397) PDF 7.02 K (1614) 评论 (0) 收藏

摘要:越狱攻击对于识别和缓解大型语言模型的安全漏洞至关重要. 这些攻击旨在绕过安全防护机制, 诱导模型产生被禁止的输出. 然而, 由于这些攻击通常在不同的数据样本和模型上进行评估, 因此很难直接公平地比较它们. 本文介绍了EasyJailbreak, 这是一个统一框架, 简化了针对大语言模型的越狱攻击的构建和评估过程. 它使用4个组件构建越狱攻击: 选择器、变异器、约束条件和评估器. 这种模块化设计使研究人员能够轻松组合现有组件或设计新组件, 以构造多种攻击方法. 为了展示该框架的实用性, 本文进行了大规模的实证评估. 目前已基于该框架实现了11种不同的越狱方法, 并在大语言模型上进行了广泛的安全验证, 涉及10种不同大语言模型的超过75万次推理查询, 结果显示在各种越狱攻击下平均突破概率为60%. 值得注意的是, 即使是像GPT-3.5-turbo和GPT-4这样的高级模型, 平均攻击成功率也分别达到57%和33%.

去中心化联邦学习的分层策略与动态资源联合优化

张昕，陈雨彤，金子龙

2025, 34(11):30-41. DOI: 10.15888/j.cnki.csa.009986 CSTR: 32024.14.csa.009986

摘要 (333) HTML (359) PDF 7.05 K (1518) 评论 (0) 收藏

摘要:针对去中心化联邦学习中因节点动态异构性及通信资源分配不合理导致的模型收敛效率低、通信开销大等问题, 本文提出一种基于深度强化学习的分层设备通信优化方案. 首先, 构建分层拓扑驱动的联邦学习框架, 底层设备通过Gossip协议实现局部模型聚合, 高层代表节点执行跨区域全局协同, 降低通信频率并缓解动态网络下的参数不一致问题. 其次, 设计基于深度确定性策略梯度(deep deterministic policy gradient, DDPG)的动态资源联合优化算法, 通过联合调整节点协作策略与频谱资源分配, 自适应平衡通信成本与模型精度, 抑制设备间传输差异引起的全局模型偏移. 实验结果表明, 在MNIST和CIFAR-10数据集上, 所提方案相较于传统去中心化联邦学习方法, 模型预测精度平均提升2.61%, 通信能耗降低64.1%.

时序图模式匹配的查询优化

覃紫云，郭青松，马国帅，张凯涵，石琼，蔡江辉

2025, 34(11):42-55. DOI: 10.15888/j.cnki.csa.009997 CSTR: 32024.14.csa.009997

摘要 (241) HTML (279) PDF 7.03 K (1623) 评论 (0) 收藏

摘要:图模拟被广泛应用于近似回答复杂的图模式匹配问题. 针对时序图模式匹配的查询效率问题, 本文提出一种基于联合图的SimAssign图模拟算法及动态规划的优化框架. 其核心思想在于: (1)将时序图的快照序列合并为联合图, 首先利用静态图模拟算法在联合图上计算初始查询结果, 然后根据时间区间将结果分发至每个快照, 从而生成相应的匹配结果; (2)为图模拟策略构建统一的代价模型, 并基于动态规划优化图模式匹配的执行策略. 本文在真实数据集和合成数据集上进行了全面实验, 实验结果表明代价模型能够准确估计静态图模拟、增量图模拟以及SimAssign等图模拟策略的执行代价, 并且优化方法能够选择出最优的执行方案. 在绝大多数情况下, SimAssign的性能显著优于静态图模拟和增量式图模拟算法, 在部分实验中SimAssign的性能达到增量法的4倍.

基于视觉的室内移动机器人导航避障

张增亮，郑昊天，刘爽

2025, 34(11):56-67. DOI: 10.15888/j.cnki.csa.010006 CSTR: 32024.14.csa.010006

摘要 (344) HTML (293) PDF 7.05 K (1881) 评论 (0) 收藏

摘要:自主导航与避障作为室内移动机器人完成任务的关键技术, 其重要性日益凸显. 但目前导航的轨迹规划模块生成的轨迹普遍明显偏离原始几何路径, 轨迹偏移严重; 另外, 视觉传感器虽然具有感知信息丰富、成本较低等优势, 但却存在数据量大、处理复杂的问题. 因此本文提出了一种基于视觉的导航避障方法, 使用基于贝塞尔曲线的轨迹规划算法, 用Bernstein基表示分段轨迹, 对整个轨迹施加安全约束和动力可行性约束, 有效避免轨迹碰撞, 并改进安全走廊的生成方式, 解决了轨迹偏移严重的问题; 对于室内环境中障碍物的识别与避障, 提出“最近深度法”和“深度比较法”, 排除地面对障碍物识别的干扰, 并使计算资源需求下降. 最后在室内移动机器人平台上进行实验验证, 在不依赖激光雷达硬件的情况下, 只依赖深度相机实现对视野内低矮和悬空、静态和动态障碍物的感知避障, 完成导航任务.

面向神经隐式表面重建的层次化体素编码

顾小东，关凯，潘健雄

2025, 34(11):68-81. DOI: 10.15888/j.cnki.csa.010018 CSTR: 32024.14.csa.010018

摘要 (306) HTML (285) PDF 7.11 K (2045) 评论 (0) 收藏

摘要:神经隐式表面重建技术在从图像中恢复精细三维形状方面取得了显著进展, 但现有方法主要依赖多层感知机(MLP)进行场景编码, 缺乏显式的三维结构信息, 导致重建结果在几何细节和全局一致性上存在不足. 为解决该问题, 本研究提出了一种面向神经隐式表面重建的层次化体素编码方法. 该方法通过设计一种多尺度体素编码策略, 显式地将空间信息嵌入到神经隐式表示中: 高分辨率体素捕捉高频几何细节, 学习空间变化的特征; 低分辨率体素则通过在相邻位置共享特征来保持空间一致性和形状平滑性. 此外, 为优化内存使用, 本方法引入了稀疏结构降低高分辨率体素的内存开销, 并设计了两个正则化项进一步提升重建结果的平滑度. 所提出的体素编码模块具有即插即用的特性, 可无缝集成到各类隐式表面重建方法中. 实验结果表明, 该方法在DTU、EPFL和BlendedMVS等基准数据集上的多项评估指标均实现了显著提升, 能够生成兼具平滑性和细节丰富性的高质量重建结果.

BPS-WLRI: 面向局部偏斜工作负载的鲁棒索引设计

李林昊，何海钊

2025, 34(11):82-94. DOI: 10.15888/j.cnki.csa.009982 CSTR: 32024.14.csa.009982

摘要 (226) HTML (266) PDF 7.04 K (930) 评论 (0) 收藏

摘要:在大数据时代, 海量数据的存取已成为制约系统性能的关键瓶颈. 尽管学习索引凭借高查询效率和低空间开销在大规模数据管理中得到广泛应用, 但在局部数据分布偏斜, 尤其遭遇投毒攻击时, 其性能会显著下降. 传统学习索引依赖固定阈值的就地插入策略, 为维持局部有序性, 随机插入可能触发高代价的重训练和数据移动操作, 既耗费大量计算资源, 又导致系统响应不稳定和吞吐量下降. 为此, 本文提出了一种基于缓冲区平滑机制的加权线性回归索引(BPS-WLRI). 该方法首先引入加权线性回归模型, 对数据分布进行精细拟合, 从而有效降低索引树深度和重训练频率; 同时, 采用哈希桶缓冲结构优化就地插入过程, 有效缓解因严格维护有序性而引发的大规模数据移动问题; 此外, 还设计了缓冲点平滑策略, 实现缓冲区合并时仅对局部结构进行增量更新, 避免了全局重构的高昂开销. 实验结果表明, 在投毒攻击极端负载下, BPS-WLRI的吞吐量分别比ALEX、PGM、LIPP、DILI、SALI和AULID提高了1.81倍、4.32倍、2.22倍、2.06倍、1.41倍和1.39倍, 验证了其在动态数据负载和恶意攻击场景下的高效性与稳定性.

基于改进差分进化算法与堆叠自动编码器的入侵检测

刘联海，刘恒锋，张明和

2025, 34(11):95-106. DOI: 10.15888/j.cnki.csa.009976 CSTR: 32024.14.csa.009976

摘要 (226) HTML (279) PDF 7.06 K (1611) 评论 (0) 收藏

摘要:入侵检测系统是网络安全防护中的一道重要屏障, 现有的入侵检测方法在处理高维稀疏的网络流量数据时面临着特征提取困难、数据类别不平衡、模型缺乏自优化能力等挑战. 针对上述问题, 本文提出了一种基于改进差分进化算法与堆叠自动编码器的入侵检测方法iDE-SAE. 首先, 采用新颖的Geometric SMOTE算法对少数类样本进行自适应插值, 增强少数类样本的特征表达能力, 缓解数据类别不平衡问题带来的负面影响. 然后, 使用堆叠自动编码器对高维数据进行特征提取, 提炼出数据低维精简的本质特征. 最后, 利用低维数据训练深度神经网络分类器, 并提出一种改进的差分进化算法用于自动优化分类器超参数, 以获取性能最优的分类模型. 在 CIC-IDS2017和UNSW-NB15数据集上进行了实验, 分类准确率分别达到了99.66%和99.61%, F1值分别达到了99.40%和99.65%, 验证了本文方法在入侵检测任务中的有效性, 在保持高精度检测性能的同时, 赋予了模型自主调优能力.

基于自适应图拓扑细化与跨序列对比学习的骨架动作识别优化

董佳康，何涛

2025, 34(11):107-114. DOI: 10.15888/j.cnki.csa.010012 CSTR: 32024.14.csa.010012

摘要 (244) HTML (252) PDF 7.08 K (1207) 评论 (0) 收藏

摘要:为解决骨架动作识别领域中模糊样本导致的复杂动作识别难题, 本文提出了一种自适应图拓扑细化(AGTR)和跨序列对比学习(CSCL)的协同优化框架. 首先, AGTR 通过多头注意力机制动态构建关节关系拓扑, 打破了传统图卷积依赖固定结构的局限性, 实现了多视角特征的解耦. 其次, CSCL 融合了片段级、实例级和类原型的比较损失, 结合动态困难样本挖掘策略, 增强了模型对时间语义一致性和长尾分布的建模能力. 经过严密实验, 本文在 NTU RGB+D 120 数据集的CSub协议下达到89.8%的准确率, 超越了基于超图与Transformer的先进方法——Hyperformer (86.9%) 2.9个百分点, 在噪声和遮挡的环境下鲁棒性提高了18.8%, 且参数量和计算效率得到平衡和优化(3.1 GFLOPs, 25 f/s). 本研究为复杂运动的理解提供了一种高精度、可解释、易于部署的解决方案, 在智能医疗监测和工业人机交互应用领域具有良好的前景.

基于RL和AIDM的终端区交通流稳定性增强策略

张婷婷，李江晨，朱佳丽，杜梦涵，卢祥

2025, 34(11):115-126. DOI: 10.15888/j.cnki.csa.009999 CSTR: 32024.14.csa.009999

摘要 (269) HTML (268) PDF 7.03 K (1194) 评论 (0) 收藏

摘要:随着航空业快速发展, 空中交通流量不断攀升, 空域密度显著增大, 飞行间隔标准降低, 使得高密度交通流中跟驰行为愈发显著, 空中交通跟驰建模成为空管领域研究热点. 在现有的空中交通跟驰模型中, 少见考虑前机加速度这一因素, 也缺乏将跟驰稳定判据条件融入强化学习驱动的航空器运行仿真中. 针对以上问题, 本文聚焦飞机呈现高密度运行的终端区进近阶段, 基于地面跟驰理论, 通过考虑地空通信时延, 前机加速度因素构建航空器智能驾驶模型(aircraft intelligent driving model, AIDM), 并通过微扰法以及直接传递函数法进行稳定性分析, 推导出临界稳定条件, 探究模型在前后机之间的局部稳定性及在机队中的渐进稳定性. 最后开展局部稳定性仿真, 渐进稳定性仿真以及终端区航空器跟驰场景仿真, 并将临界稳定性判据条件融入奖励函数与经典强化学习算法结合, 探索航空器自主运行机制并增强运行稳定性. 仿真结果表明, 航空器智能驾驶模型的局部稳定域和渐进稳定域范围都显著增大, 通过对不稳定域面积的分析得出: 对前机加速度的敏感系数从0增加到0.3时, 模型稳定域较原始IDM模型增加8.5%, 减少20 s的通信时延可使稳定域增加17.65%; 通过运行场景仿真分析, 在相同扰动条件下, 航空器智能驾驶模型所需恢复稳定时间比原始IDM模型缩短了21.9%, 而引入稳定性奖励机制的强化学习算法平均分数显著高于传统奖励机制, 有效提高了航空器运行稳定性, 证实该机制在智能体学习过程中的有效性及对航空器自主运行的潜在价值.

基于双流门控视听融合的多模态语音增强

彭敏轩，梁艳

2025, 34(11):127-138. DOI: 10.15888/j.cnki.csa.009996 CSTR: 32024.14.csa.009996

摘要 (344) HTML (266) PDF 7.03 K (1053) 评论 (0) 收藏

摘要:针对现有音视频语音增强方法在复杂场景下存在的鲁棒性不足、多模态信息融合效率低下、计算复杂度高等问题, 本文提出一种双流门控视听融合(dual-stream gated audio-visual fusion, DS-GAVF)架构. 该架构通过静态与动态视觉协同建模, 以及细粒度的跨模态交互, 实现语音增强性能的提升. 在特征提取阶段, 采用U-Net编码音频时频特性, 同时设计双流视觉网络, 采用ResNet-18提取单帧面部静态特征, 使用时空图卷积网络捕捉连续面部标志点的动态运动模式. 为解决视听模态时序差异, 提出动态时间插值对齐方法, 并设计了一种门控交叉注意力机制, 通过门控单元动态调节特征融合权重, 在视觉可信度低时抑制噪声干扰. 在解码阶段, 通过跨模态跳跃连接, 将多尺度视觉线索注入U-Net解码层, 最终输出目标语音时频掩码. 实验结果表明, DS-GAVF在3个数据集上的混合噪声环境下均表现出优异性能. 与现有方法相比, DS-GAVF在保持较低计算复杂度的同时, 实现了语音质量、可懂度与鲁棒性的协同提升.

并行大模型驱动的多模态骨签文物分类

范涛，王慧琴，王可，刘瑞，王展，毛力

2025, 34(11):139-150. DOI: 10.15888/j.cnki.csa.009983 CSTR: 32024.14.csa.009983

摘要 (262) HTML (329) PDF 7.06 K (1016) 评论 (0) 收藏

摘要:汉朝未央宫遗址出土的约6万片骨签碎片中, 约5.7万片刻有释文, 多数骨签在出土时呈纵向断裂状态, 导致其上下部分分离, 对文物的数字化保护及系统化分类工作带来了挑战. 传统人工分类方法不仅效率低下且可能对骨签造成进一步的损伤, 为提升骨签文物的分类精度, 为后续考古研究提供支持, 本文提出了一种融合骨签图像与释文信息的并行多模态分类模型. 该方法采用Vision-RWKV大模型提取骨签图片的视觉特征, 利用RWKV大模型提取骨签上的释文信息, 通过动态交叉特征融合模块整合图像与文本特征, 并引入分类器进行精细化分类. 实验结果表明该方法达到了92.85%的准确率, 显著优于传统深度学习模型和其他多模态大模型. 研究成果为骨签文物的高效分类与整理提供了有力的技术支撑, 并为考古领域的智能化研究奠定了重要基础.

面向金融交易系统的HADES异常检测优化

徐烨翎，戴祎，张春熙，刘凯，林征，吴承荣

2025, 34(11):151-161. DOI: 10.15888/j.cnki.csa.010000 CSTR: 32024.14.csa.010000

摘要 (249) HTML (243) PDF 7.08 K (1214) 评论 (0) 收藏

摘要:为解决传统金融交易系统异常检测机制难以适应动态负载和复杂故障模式的问题, 本文提出面向金融基础设施的智能化异常检测模型的优化方法, 旨在提升早期预警能力与故障定位效率, 保障系统稳定性. 针对金融交易系统的数据特性与业务场景, 本文调整了指标和日志的融合权重, 优先利用高频连续的系统指标构建早期预警基线. 同时, 设计了多标签异常分类机制, 通过预定义典型故障场景, 实现复合型异常的精准识别与类型标记. 实验结果表明, 优化后的模型在模拟金融交易场景中表现稳定, 准确率保持在95%以上, 具有较高的适用性.

融合改进注意力机制与SENet的双塔推荐模型

周泽冰，王业

2025, 34(11):162-171. DOI: 10.15888/j.cnki.csa.009987 CSTR: 32024.14.csa.009987

摘要 (312) HTML (276) PDF 7.05 K (1189) 评论 (0) 收藏

摘要:数据稀疏性和用户特征交互程度问题一直是推荐系统研究的难点. 本文提出了一种融合了SENet特征重标定与注意力机制的双塔模型. 该模型通过双塔结构实现高效的候选集召回, 并利用复杂特征交互来实现精准排序. 模型在传统推荐框架基础上引入改进的注意力机制以增强动态交互能力, 集成SENet模块自适应校准特征重要性, 并通过混合架构联合矩阵分解与深度学习优势, 进一步提升特征表达与泛化能力. 在MovieLens-1M和Netflix数据集上的实验表明, 该模型在评分预测和分类任务上均优于主流基线模型, 验证了其在提取用户特征和缓解数据稀疏性方面的优势.

基于多级选通的人体姿态估计网络

李小雨，刘罡，吴烨，郑泽林

2025, 34(11):172-183. DOI: 10.15888/j.cnki.csa.010008 CSTR: 32024.14.csa.010008

摘要 (953) HTML (275) PDF 7.07 K (1056) 评论 (0) 收藏

摘要:为了实现复杂场景下更精准的人体关键点定位, 本文提出一种基于多级选通的人体姿态估计网络模型MGNet. 首先, 该模型以HRNet为骨干网络并移除了HRNet中的第4阶段, 通过平行连接实现多阶段分辨率的连接, 达到平衡模型复杂度和检测能力的目的; 其次, 构建了一种新的动态上采样方法以替换双线性插值方式, 能够充分利用特征图中丰富的语义信息, 并且提高网络的特征融合能力; 然后, 设计了一种混合高效通道注意力机制, 增强模型对全局和局部通道信息, 同时提出了一种轻量化的多级选通CA注意力模块(MCAM), 该模块被用来替代HRNet中的残差块, 在确保模型性能的同时, 有效地减少了模型的复杂度, 从而实现了轻量化的目标; 最后, 设计了一种深度感知特征增强模块, 使最终输出特征在包含局部深度信息的同时还包含全局信息. 实验结果表明, MGNet在COCO2017验证集上取得了72.1%的准确率, 与骨干网络HRNet相比, 参数量减少了70%, 精度仅损失1.3%. 同样在MPII数据集上, 在减少大量计算量的同时, 取得了89.4%的平均精度. 综合COCO2017和MPII数据集上的表现, MGNet不仅在轻量化模型中实现了最优精度, 而且与大模型相比具有相当或更佳的性能.

基于改进 YOLOv8 的耳穴关键点检测

张彦亮，庞立健，周伟杰，王英，谢于飞，王琳琳

2025, 34(11):184-193. DOI: 10.15888/j.cnki.csa.010004 CSTR: 32024.14.csa.010004

摘要 (280) HTML (263) PDF 7.06 K (1132) 评论 (0) 收藏

摘要:本研究通过构建耳穴关键点检测的自动化方法, 弥补传统中医耳穴人工定位效率低, 主观性强等缺陷, 推动中医体质辨识的客观化, 智能化进程. 本文提出了一种卷积方法GDConv (group-depth convolution). 通过将组卷积与深度可分离卷积结合使用, 再进行通道打乱操作, 可以在最大程度保持精度的同时降低计算成本; 另一方面, 采用上采样算子CARAFE模块, 增加网络的感受野, 更好地恢复耳穴细节, 提升模型对耳穴关键点的检测能力. 实验结果表明, 相较于基准模型, YOLOv8-ear模型展现出显著的轻量化优势, 其参数量相较于YOLOv8n下降了约 52.09%, mAP@0.5达到了99.1%. 使用深度学习方法可以有效地识别耳穴关键点特征, 为中医基于耳穴实时检测的现代化和智能化分类提供了新的途径.

基于改进YOLOv9蘑菇目标检测

徐英杰，侯宇佳，姚百蔚，田宏

2025, 34(11):194-201. DOI: 10.15888/j.cnki.csa.009998 CSTR: 32024.14.csa.009998

摘要 (305) HTML (244) PDF 7.07 K (1443) 评论 (0) 收藏

摘要:由于蘑菇存在种类繁多、特别是野生蘑菇形态特征复杂且存在大量相似种的特点, 导致基于视觉的自动识别系统在处理种间区分时面临严峻挑战. 本研究通过优化YOLOv9深度学习模型, 着力提升野生蘑菇的自动检测与分类准确性, 实现不同物种的精准区分, 为野外采摘提供物种鉴别辅助. 通过集成专门针对蘑菇形态多样性设计的动态蛇形卷积(DSConv)和增强空间信息处理能力的坐标卷积(CoordConv), 成功开发了一种专门优化蘑菇形态多样性和空间位置定位的深度学习模型, 显著提高了蘑菇种类检测的精确度. 经过一系列实验评估, 改进后的YOLOv9模型在蘑菇检测任务上相比于YOLOv9-C模型识别准确率提升了3.5%, 召回率提升了2.3%, 其他性能指标也有很大提升, 相比于当前主流算法及原始版本显示出明显优势, 证明了其在实际应用中的强大潜力.

复杂环境下的小目标交通标志检测

苏健，叶文强

2025, 34(11):202-211. DOI: 10.15888/j.cnki.csa.009984 CSTR: 32024.14.csa.009984

摘要 (311) HTML (236) PDF 7.08 K (1180) 评论 (0) 收藏

摘要:交通标志智能实时检测作为智慧交通系统的核心支撑技术, 在无人驾驶决策系统与高精度动态地图构建中具有不可替代的战略价值. 面对复杂多变的道路场景实时检测需求, 尤其是现有DETR模型在复杂场景和小目标检测中的不足, 本文提出了一种目标检测模型, 针对强光照、雨雪天气等恶劣条件下交通标志特征易退化的问题, 进一步提出了OmniFocus-RT-DETR模型. 该模型引入动态范围直方图自注意力机制(DHSA), 通过动态范围自注意力机制, 能够对天气退化引起的像素模式进行自适应处理, 并结合动态范围卷积, 有效缓解了光照剧烈波动带来的特征失真问题. 同时, 引入空间到深度的特征重组卷积(SPDConv)和CSP-OmniKernel模块, 结合空间域与频域的联合学习方法, 显著增强了复杂环境下模型的鲁棒性. 实验结果表明, OmniFocus-RT-DETR模型在自制的复杂环境交通标志检测数据集TT100K_aug和CCSTDB_aug中, 相较于基准模型RT-DETR, mAP@50分别提高了8.9%和7.7%, 小目标的检测精度也分别提升了9.1%和4%, 在精度、鲁棒性和实时性上都优于当前主流方法. 实验结果表明该改进方法能有效提高复杂环境下的交通标志目标检测精度.

联合高度感知稀疏化与任务解耦的自动驾驶全景占用预测

姜彦吉，张潇，董浩

2025, 34(11):212-219. DOI: 10.15888/j.cnki.csa.009981 CSTR: 32024.14.csa.009981

摘要 (246) HTML (258) PDF 7.04 K (1069) 评论 (0) 收藏

摘要:基于环视相机的全景占用预测是自动驾驶环境理解的核心任务, 然而, 现有方法在提高检测精度和兼顾计算效率方面面临挑战, 传统体素化方法因全高度密集计算导致冗余, 而特征压缩会丢失高度方向细粒度信息, 多任务耦合进一步降低小目标预测精度. 本文基于Panoptic-FlashOcc提出一种动态稀疏体素引导的轻量化网络: (1)设计动态稀疏体素采样机制, 通过可学习掩码预测高度方向自适应采样点, 减少无效计算; (2)提出高度感知补偿模块, 通过LSTM编码和残差融合恢复空间细节; (3)构建多任务解耦金字塔, 采用可变形卷积分离语义/实例特征流. 在Occ3D-nuScenes数据集上, 本文方法较基线在RayIoU指标上提升5.5%, 达到41.2%. 实验结果表明, 本文方法显著提升了小目标检测精度和全景占用预测任务的实时性.

基于外生变量和序列式嵌入的Transformer径流量预测

席凡，刘向阳

2025, 34(11):220-226. DOI: 10.15888/j.cnki.csa.009972 CSTR: 32024.14.csa.009972

摘要 (236) HTML (252) PDF 7.03 K (794) 评论 (0) 收藏

摘要:径流量预测能够为水资源的合理分配提供科学依据, 基于历史水文大数据可以实现径流量的预测. 为了有效利用降雨量、温度等时间序列数据(外生变量)来进一步提升径流量预测精度, 本文提出了一种基于外生变量和序列式嵌入的Transformer径流量预测模型. 该模型在时间注意阶段引入内生变量序列式嵌入, 利用自注意力机制捕获序列与补丁的时间特征, 增强模型对内生变量时间特征的捕捉能力; 在维度注意阶段区分内生变量、外生变量, 利用交叉注意力机制捕捉外生变量对内生变量的影响模式. 基于渭河流域径流量数据的实验结果表明, 该方法在RMSE、NSE上均优于基准方法, 验证了其在径流量预测任务中的有效性和实用性.

基于多视点信息融合的图像目标识别

郭璠，赵昊亮，刘卓群，唐琎，刘文韬

2025, 34(11):227-241. DOI: 10.15888/j.cnki.csa.010023 CSTR: 32024.14.csa.010023

摘要 (218) HTML (246) PDF 7.03 K (1221) 评论 (0) 收藏

摘要:针对图像目标识别因遮挡等原因造成的误检、漏检问题, 本文提出了一种基于多视点信息融合的图像目标识别算法. 该算法首先采用所提EYOLO模型来有效检测图像中的目标对象. 然后采用ORB及FLANN算法快速实现特征点的提取及匹配. 同时, 利用随机一致性采样算法进行特征点对的精匹配, 并求解出最优的坐标变换矩阵, 实现多目标关联. 最后对关联结果进行多视点融合, 综合目标关联结果调整目标的置信度值, 并采用投票决策机制实现对目标所属类别的最终判定. 在自建数据集上的实验结果表明, 在目标检测平均精度方面, 相比于原YOLO模型的81.9%, 本文方法的平均精度可提升至88.1%. 在此基础上通过多视点目标关联和融合后的目标识别准确率可达98.1%, 从而证明了本文方法的有效性.

基于卷积白盒Transformer的滚动轴承剩余寿命预测

张宇，孙渝林，居文军

2025, 34(11):242-252. DOI: 10.15888/j.cnki.csa.010010 CSTR: 32024.14.csa.010010

摘要 (235) HTML (253) PDF 7.06 K (1496) 评论 (0) 收藏

摘要:滚动轴承的振动信号具有非线性和非平稳性. 为增强剩余寿命预测方法对长时间依赖性与局部退化信息的同步捕获能力, 提出了一种结合卷积结构的白盒Transformer (convolutional white-box Transformer, CWTR)轴承剩余寿命预测模型. 首先, 设计融合膨胀因果卷积的子空间注意力机制, 以扩展注意力机制的感受野, 增强信号中局部依赖关系的建模能力; 其次, 构建多尺度卷积模块, 增强不同时间尺度下通道特征的交互建模能力, 从而更精细地提取不同退化阶段的局部特征; 此外, 基于Pearson相关系数量化评估轴承健康状态; 最后, 采用改进损失函数优化网络训练. 在真实轴承数据集上进行实验, 并与其他预测模型的预测结果进行比较, 均方根误差和平均绝对误差分别改进了27.88%与27.85%, 验证了CWTR模型的有效性.

监督学习下数据价值评估方法的应用

何宇辰，曾凡平

2025, 34(11):253-261. DOI: 10.15888/j.cnki.csa.010001 CSTR: 32024.14.csa.010001

摘要 (217) HTML (240) PDF 7.09 K (1561) 评论 (0) 收藏

摘要:现实场景中采集的数据往往存在着噪声和偏差的问题, 为了保证训练模型的性能, 必须判断出数据的好坏并做出筛选, 然而数据清洗阶段并不能完全筛选出所有低价值的数据. 已有工作通过留一法或沙普利值来评估数据的重要性, 然而留一法被证明是不稳定的, 沙普利值方法的计算复杂度过高. 为了解决可用性和时间效率平衡的问题, 提出了一种优化梯度值的数据价值评估方法, 实现比沙普利值更快地计算所有数据点的价值. 实验结果表明, 优化梯度的评估方法能够有效识别错误标签和噪声数据, 删除低价值的数据也能帮助模型提升预测准确率.

函数包络模型的分位数回归算法

陈波，崔文泉

2025, 34(11):262-269. DOI: 10.15888/j.cnki.csa.009989 CSTR: 32024.14.csa.009989

摘要 (200) HTML (232) PDF 7.03 K (1060) 评论 (0) 收藏

摘要:函数型分位数回归在许多实际应用中表现良好, 特别是在处理具有复杂依赖结构的数据时, 常考虑的是标量响应变量与函数型预测变量之间的条件分位数关系. 对于函数型数据的回归模型, 已知的算法是通过函数主成分基对斜率函数进行近似展开, 在此基础上再进行估计, 本文提出了一种适用于函数型分位数回归, 能够提高估计效率, 减少预测误差的算法. 该算法通过引入函数特征稀疏包络空间, 将用于分位数回归的函数预测变量信息集中到一个更小的空间, 降低了函数型分位数回归模型的复杂度, 然后将集中信息后的分位数回归模型用广义矩估计方法进行估计. 实验结果表明, 本文算法在公开的函数型数据集CanadianWeather和wheat上优于对比算法.

空间-通道注意力协同的精炼特征知识蒸馏

叶超越，钟良琪，闫胜业

2025, 34(11):270-278. DOI: 10.15888/j.cnki.csa.009988 CSTR: 32024.14.csa.009988

摘要 (251) HTML (290) PDF 7.05 K (1080) 评论 (0) 收藏

摘要:知识蒸馏通过传递教师模型知识提升学生模型性能. 然而对于轻量化的学生模型而言, 全盘吸收教师特征图内的隐含知识是困难的, 为此本文提出一种基于空间-通道注意力精炼的协同蒸馏方法(SCAR-KD), 通过从原始特征图中提炼关键判别信息, 缓解学生与教师的语义分歧. 具体而言, 本文采用了一种多尺度空间-通道注意力模块(SCSA), 从师生特征图的通道和空间维度中精炼出具有判别性的注意力增强特征进行蒸馏, 同时解耦出空间注意力图加权给原始特征图进行动态蒸馏. 该方法实现了双重知识迁移. 实验结果表明, YOLOv8n-SCAR-KD相较于基线YOLOv8n在VOC和VisDrone数据集上mAP@0.5:0.95分别从64.1%提升至65.3%, 从20.7%提升至21.6%, 超过了现有的主流蒸馏方法, 验证了方法的有效性.

基于自监督多模态语义通信的人体3D重建

唐显锋，叶仕通

2025, 34(11):279-288. DOI: 10.15888/j.cnki.csa.010032 CSTR: 32024.14.csa.010032

摘要 (238) HTML (236) PDF 7.08 K (1265) 评论 (0) 收藏

摘要:针对多模态数据传输中语义信息丢失及信道噪声干扰导致人体3D重建精度下降的问题, 本文提出了一种基于自监督多模态语义通信的人体3D重建方法(SMH3D). 本方法利用跨模态对比自监督学习, 实现RGB图像与深度图等多模态数据的特征对齐, 并通过变分自编码器对特征进行压缩; 随后引入知识图谱增强的语义编码机制和可变长度编码策略, 以在有限带宽下优先保护关键语义信息. 针对真实信道条件的不稳定性, 本文设计了端到端的信道编码与解码模块, 并采用信道状态反馈自适应调整传输参数, 从而保证在噪声、衰落等恶劣环境下语义特征的高保真传输. 通过基于Transformer与图神经网络相结合的多模态特征融合策略, 并利用条件隐式函数实现高精度人体3D模型重建. 实验结果表明, 在不同信噪比条件下, SMH3D在IoU、PSNR和语义保真度等指标上均显著优于传统的点云传输方法SemCom, 及面向实时三维重建任务的语义通信方法SCS, 尤其在低信噪比环境下表现出更强的鲁棒性和稳定性.

基于多源特征融合的推荐算法

白露露，张娜

2025, 34(11):289-299. DOI: 10.15888/j.cnki.csa.010024 CSTR: 32024.14.csa.010024

摘要 (216) HTML (256) PDF 7.05 K (1581) 评论 (0) 收藏

摘要:传统推荐算法仅依靠用户的历史评分数据来挖掘相似用户, 这一方法会面临着严重的数据稀疏性和冷启动问题, 造成推荐效果不理想. 为解决数据稀疏性, 提高推荐质量, 通过深度挖掘评论文本和评分数据的语义信息, 提出了基于多源特征融合的推荐算法模型(recommendation algorithm model based on multi-source feature fusion, MSFF), 该模型通过CNN和SA_BiLSTM混合模型对评论文本信息进行特征提取, 并在特征提取时引入自注意力机制动态地调整评论信息的重要性, 从而更好地捕捉评论信息中的深层关键信息. 接着通过隐语义模型LFM分解评分矩阵得到用户和物品潜在特征. 然后将两种模型所得的非同源特征进行有效融合得到高阶特征, 进而预测评分, 并根据最终的预测评分生成推荐列表. 为了验证模型的有效性, 在Yelp评论数据集和亚马逊评论数据集Amazon5-core中的3个子数据集上进行实验, 结果表明, 该模型不仅缓解推荐算法中评分数据稀疏性的影响, 而且有效地提升了推荐结果的准确性.

微信公众号

网站二维码

>综述文章

当期目录

年份

刊期