2024年第33卷第9期文章目次

2024, 33(9):1-13. DOI: 10.15888/j.cnki.csa.009638

摘要 (1050) HTML (2571) PDF 3.67 M (2821) 评论 (0) 收藏

摘要:单细胞 RNA测序技术(single-cell RNA sequencing, scRNA-seq)在单个细胞的水平上对转录组进行高通量测序分析, 其核心应用是识别具有不同功能的细胞亚群, 通常基于细胞聚类来完成. 然而, scRNA-seq 数据高维度、高噪声、高稀疏的特点使得聚类充满挑战. 常规的聚类方法表现不佳, 现有的单细胞聚类方法也大多只考虑基因的表达模式, 而忽略了细胞之间的关系. 针对这些问题, 提出了一个联合对比学习与图神经网络的自优化单细胞聚类方法(self-optimizing single-cell clustering with contrastive learning and graph neural network, scCLG). 该方法采用自编码器来学习细胞的特征分布. 首先构建细胞-基因图, 使用图神经网络进行编码, 以有效利用细胞之间的关系信息. 通过子图采样和特征掩码获取增广视图用于对比学习, 进一步优化特征表示. 最后使用自优化的策略将聚类模块和特征模块联合训练, 不断优化特征表示和聚类中心, 实现更准确的聚类. 在10个真实的scRNA-seq数据集上的实验表明, scCLG能够学习到细胞特征的良好表示, 在聚类精度上全面优于其他方法.

利用潜在稀疏表示学习的增强局部保持投影方法

彭帅，胡良臣

2024, 33(9):14-27. DOI: 10.15888/j.cnki.csa.009609

摘要 (690) HTML (2113) PDF 3.56 M (2577) 评论 (0) 收藏

摘要:降维在机器学习和模式识别领域中起着至关重要的作用. 目前, 现有的基于投影的方法往往只单一地利用了数据之间的距离信息或表示关系来保持数据的结构, 难以有效捕捉高维空间中数据流形的非线性特征和复杂相关性. 为了解决这个问题, 本文提出了一种利用潜在稀疏表示学习的增强局部保持投影 (enhanced locality preserving projection with latent sparse representation learning, LPP_SRL)方法. 所提出方法不仅利用距离信息以保留数据的局部结构, 而且利用多重局部线性表示来揭示数据的全局非线性结构. 此外, 为了在投影学习和稀疏自表示之间建立联系, 本文采用了一种新策略, 将稀疏自表示中的字典替换为低维表示的重构样本. 通过这种方法, 能够有效地过滤掉不相关的特征和噪声, 从而更好地保留原始特征空间中的主要成分. 在多个公开可用的基准数据集上进行的大量实验证明了所提出方法的有效性和优越性.

融合物理信息的热带气旋强度估计

丁嘉慕，乐璐辉，杭仁龙

2024, 33(9):28-37. DOI: 10.15888/j.cnki.csa.009623

摘要 (779) HTML (2522) PDF 2.56 M (2959) 评论 (0) 收藏

摘要:热带气旋强度的精确估计是进行有效强度预测的基础工作, 对于灾害预报至关重要. 当前基于深度学习的热带气旋强度估计技术展现出了优越的性能, 但仍然存在着物理信息融合不足的问题. 因此, 本文基于深度学习框架, 提出一种融合物理信息的热带气旋强度估计模型(physical factor fusion for tropical cyclone intensity estimation, PF-TCIE), 来估计西北太平洋的热带气旋强度. PF-TCIE由多通道卫星云图学习分支和物理信息提取分支组成. 多通道卫星云图学习分支用于提取热带气旋云系特征, 物理信息提取分支用于提取物理因子特征, 来约束云系特征的学习. 本文数据选用葵花-8卫星资料和ERA-5再分析资料. 实验证明, 在引入多个通道后, 模型的RMSE误差较单通道降低了3.7%. 同时, 物理信息的引入使模型的误差进一步下降了8.5%. PF-TCIE的RMSE最终达到了4.83 m/s, 优于大部分深度学习方法.

融合多特征的骨签释文实体识别

石雨梦，王慧琴，王展，刘瑞，王可

2024, 33(9):38-47. DOI: 10.15888/j.cnki.csa.009605

摘要 (1375) HTML (2251) PDF 2.25 M (2444) 评论 (0) 收藏

摘要:构建适用于汉长安城骨签释文的命名实体识别模型, 用来解决由于汉长安城骨签释文关键内容缺失, 而导致无法对部分骨签释文进行分类的问题. 本文将汉长安城骨签释文原始文本作为数据集, 采用BIOE (begin, inside, outside, end)标注方法对释文实体进行数据标注, 并提出融合字结构特征、字词结构特征的多特征融合网络模型(multi-feature fusion network, MFFN). 该模型不仅考虑了单个字符的结构特征, 还融合了字与词的结构特征, 以增强模型对骨签释文的理解能力. 实验结果表明, MFFN模型能够更好地识别汉长安城骨签释文的命名实体, 实现骨签释文分类, 优于现有NER模型, 为历史学家和研究人员提供更加丰富和准确的数据支持.

基于特征解耦和开放性学习的小样本开放集识别

吴少玲，罗会兰

2024, 33(9):48-57. DOI: 10.15888/j.cnki.csa.009612

摘要 (834) HTML (2238) PDF 1.54 M (2693) 评论 (0) 收藏

摘要:在小样本开放集识别任务中, 有效区分闭集和开集样本是一项具有挑战性的任务, 尤其在样本稀缺的情况下. 现有方法在构造已知类分布边界时存在模糊性, 未能很好地实现闭集和开集空间的区分. 为了解决这一问题, 本文提出了基于特征解耦和开放性学习的小样本开放集识别方法. 其目的是通过特征解耦模块, 迫使模型解耦类别性特征和开放性特征, 从而扩大未知类与已知类之间的差异. 为了有效实现特征解耦, 引入了开放性学习损失来促进特征的开放性学习. 通过结合相似度度量值和反开放性分值作为损失优化对象, 更好地引导模型学习到更具区分性的特征表示. 实验结果表明, 本文方法在公共数据集miniImageNet和tieredImageNet上可以显著提高未知类样本的检测率, 同时正确分类已知类别.

基于扩散模型的解耦知识蒸馏

王鹏宇，朱子奇

2024, 33(9):58-64. DOI: 10.15888/j.cnki.csa.009615

摘要 (1032) HTML (2204) PDF 1.08 M (2751) 评论 (0) 收藏

摘要:知识蒸馏(KD)是一种将复杂模型(教师模型)的知识传递给简单模型(学生模型)的技术, 目前比较受欢迎的蒸馏方法大多停留在基于中间特征层, 继解耦知识蒸馏(DKD)提出后基于响应的知识蒸馏又重新回到SOTA行列, 这种使用强一致性约束条件的策略, 将经典的知识蒸馏拆分为两个部分, 解决了高度耦合的问题. 然而, 这种方法忽略了师生网络架构差距较大所引起的表征差距过大, 进而导致学生模型由于体量较小无法更有效的学习到教师模型的知识的问题. 为了解决这个问题, 本文提出了使用扩散模型来缩小师生模型之间的表征差距, 这种方法将教师特征传输到扩散模型中训练, 然后通过一个轻量级的扩散模型对学生模型进行降噪从而缩小了师生模型的表征差距. 大量的实验表明这种方法对比于基准方法在CIFAR-100、ImageNet数据集上均有较大的提升, 在师生网络架构差距较大时依然能够保持较好的性能.

融合移位卷积与边缘检测的图像动态超分辨率重建

沈学利，朱晓铭，金海波

2024, 33(9):65-76. DOI: 10.15888/j.cnki.csa.009618

摘要 (740) HTML (1408) PDF 2.07 M (1944) 评论 (0) 收藏

摘要:针对固定网络架构和深度网络层导致的信息无法完全表达复杂场景预测高质量图像、高计算成本及部署困难等问题, 提出了一种具有宽网络结构的图像动态超分辨率网络(wide dynamic super-resolution network, W-SDNet). 首先, 设计了一个由移位卷积残差增强结构组成的残差增强块, 以提高图像超分辨率的分层特征提取能力并减少计算成本. 其次, 引入一个宽增强模块通过其双分支的4层并行结构, 在提取深度信息的同时利用动态网络的门机制选择性增强特征表达, 同时通过边缘检测算子融合的注意力机制增强边缘细节的表现力. 紧接着, 采用组卷积和信道分割的细化块, 以防止在广泛增强块中组件间的干扰. 最后, 通过一个构建块实现高质量图像的重建. 实验结果表明, W-SDNet在5个公开测试数据集上放大4倍时的峰值信噪比(peak signal-to-noise ratio, PSNR)指标均优于现有主流算法, 并且模型的参数量显著减少, 证明了W-SDNet在超分辨率重建的复杂度、性能及恢复时间方面的优势.

基于ST-UNet和目标特征的混凝土裂缝检测

范昊坤，刘向阳

2024, 33(9):77-84. DOI: 10.15888/j.cnki.csa.009632

摘要 (854) HTML (1375) PDF 2.01 M (1839) 评论 (0) 收藏

摘要:混凝土裂缝对结构承载能力、耐久性和防水性有负面影响, 因此早期裂缝检测具有重要意义. 大数据和深度学习的快速发展, 为裂缝智能检测提供了有效的方法. 针对裂缝检测过程中图像正负样本不平衡, 裂缝区域色彩深沉和低亮度的特点, 提出一种基于ST-UNet (Swin Transformer U-Net)和目标特征的裂缝检测方法. 该算法在网络中引入CBAM注意力机制, 使网络更加关注图像中对裂缝检测起决定作用的像素区域, 增强裂缝图像的特征表达能力; 使用Focal+Dice混合损失函数代替单一交叉熵损失函数, 处理样本图像正负样本分布不均的问题; 设计APSD正则化项优化损失函数, 针对裂缝区域色彩深沉、低亮度的问题, 降低检测的漏检率与误检率. 裂缝检测结果表明: IoU指标提升22%, Dice指数提升17%, 该算法是有效可行的.

基于Swin Transformer的遥感图像超分辨率重建

孔锐，冉友红

2024, 33(9):85-94. DOI: 10.15888/j.cnki.csa.009600

摘要 (1397) HTML (1399) PDF 1.71 M (1834) 评论 (0) 收藏

摘要:由于遥感图像中的物体具有不确定性, 同时不同图像之间的特征信息差异较大, 导致现有超分辨率方法重建效果差, 因此本文提出一种结合Swin Transformer和N-gram模型的NG-MAT模型来实现遥感图像超分辨率. 首先, 在原始Transformer计算自注意力的分支上并联多注意力模块, 用于提取全局特征信息来激活更多像素. 其次, 将自然语言处理领域的N-gram模型应用到图像处理领域, 用三元N-gram模型来加强窗口之间的信息交互. 本文提出的方法在所选取的数据集上, 峰值信噪比在放大因子为2、3、4时达到了34.68 dB、31.03 dB、28.99 dB, 结构相似度在放大因子为2、3、4时达到了0.9266、0.8444、0.7734, 实验结果表明, 本文提出的方法各个指标都优于其他同类方法.

基于多尺度差异聚合机制的遥感影像道路提取

许明，周春晖，姜彦吉

2024, 33(9):95-104. DOI: 10.15888/j.cnki.csa.009603

摘要 (1773) HTML (1403) PDF 2.45 M (1657) 评论 (0) 收藏

摘要:针对高分辨率遥感图像中地物背景复杂多样, 成像过程中道路区域易受树木、建筑物遮挡影响, 从中提取道路时易出现局部断连和细节缺失问题, 设计并实现了一种基于多尺度差异聚合机制的道路提取网络模型(MSDANet). 网络模型整体采用编码-解码器结构, 使用Res2Net模块作为编码器骨干网络获取细粒度多尺度特征信息, 增大特征提取感受野; 同时结合道路形态特征提出一种门控轴向引导模块, 用于突出道路特征的表达, 改善道路提取长距离断裂现象; 此外, 设计了一种应用于编解码器之间的多尺度差异聚合模块, 用以提取浅层与深层特征间的差异信息并将其聚合, 并通过特征融合模块将聚合特征与解码特征融合, 促进解码器准确还原道路特征; 在高分辨率遥感数据集DeepGlobe和CHN6-CUG上进行模型实验评估, 所提方法的F1值分别为80.37%、78.17%, IoU分别为67.18%、64.17%, 均优于对比模型.

基于同态加密的跨链交易数据隐私保护

赵文静，边根庆

2024, 33(9):105-113. DOI: 10.15888/j.cnki.csa.009608

摘要 (716) HTML (1541) PDF 1.66 M (1687) 评论 (0) 收藏

摘要:为了解决区块链跨链交易数据隐私问题, 本文提出了一种基于同态加密的隐私保护方案. 该方案改进了同态加密算法以支持浮点数运算, 同时保留了原算法加法同态特性, 并支持任意次数的加法运算, 以实现对跨链交易金额的隐私保护. 为了防止同态加密的私钥管理不当或丢失对交易安全性构成威胁, 引入了基于Shamir秘密共享的私钥共享机制. 该机制通过增加ECDSA数字签名对私钥份额进行验证, 防止不可信节点发送恶意的值来恢复私钥, 同时考虑节点掉线或离开后私钥份额的动态更新, 从而防止节点串谋. 经过安全性分析和实验验证, 结果表明所提出的方案能有效保护跨链场景下的交易隐私.

基于全局上下文注意力特征融合金字塔网络的遥感目标检测

孙文赟，车嘉航，金忠

2024, 33(9):114-122. DOI: 10.15888/j.cnki.csa.009631

摘要 (1057) HTML (1787) PDF 3.14 M (1916) 评论 (0) 收藏

摘要:遥感目标检测往往具有图像尺度变化大、目标微小、密集排列和宽高比过大的特性, 给高精度定向目标检测造成困难. 本文提出了一种全局上下文注意力特征融合金字塔网络. 首先, 本文设计了一种三重注意力特征融合模块, 它能够更好地融合语义和尺度不一致的特征. 然后引入层内调节方法改进并提出了一个全局上下文信息增强网络, 对含有高级语义信息的深层特征的进行细化, 提升表征能力. 在此基础上, 以全局集中调节的思想设计了全局上下文注意力特征融合金字塔网络, 利用注意力调制特征自上而下地调节浅层多尺度特征. 在几个公开数据集中进行了广泛实验, 实验结果的高精度评价指标均优于目前先进的模型.

基于图卷积时空生成对抗网络的城市交通估计

许明，邬天财，金海波

2024, 33(9):123-131. DOI: 10.15888/j.cnki.csa.009634

摘要 (665) HTML (1278) PDF 1.32 M (1854) 评论 (0) 收藏

摘要:在城市道路部署前估计路网的交通流量极具挑战性, 为了解决这个难题, 提出了一种新的条件城市交通生成对抗网络(Curb-GAN)模型, 利用条件生成对抗网络(CGAN)生成城市交通流量数据. 首先, 把路网各节点的距离关系和外部特征信息作为条件处理, 来控制生成结果; 其次, 利用图卷积网络(GCN)捕获路网的空间自相关性, 利用自注意力机制(SA)和门控循环单元(GRU)捕获不同时隙交通的时间依赖性; 最后, 由训练好的生成器生成交通流量数据. 在两个真实时空数据集上的大量实验表明, Curb-GAN模型的估计精度优于主要的基线方法, 并且可以产生更有意义的估计.

基于多头自注意力的自动睡眠分期模型

魏婉欣，朱嘉鹏，郑景仁，潘家辉

2024, 33(9):132-139. DOI: 10.15888/j.cnki.csa.009624

摘要 (898) HTML (1489) PDF 1.31 M (2179) 评论 (0) 收藏

摘要:睡眠分期在睡眠监测和睡眠质量评估中意义重大, 高精度的睡眠分期能够辅助医师在临床诊断上正确评估睡眠情况. 尽管现有的自动睡眠分期研究已经取得了相对可靠的准确率, 但是仍存在着需要解决的问题: (1)如何更加全面地提取患者的睡眠特征. (2)如何从捕捉到的睡眠特征中获得有效的睡眠状态转换规则. (3)如何有效利用多模态数据提升分类准确率. 为了解决上述问题, 本文提出了基于多头自注意力的自动睡眠分期网络. 为了提取EEG和EOG各自在睡眠阶段中的模态特点, 该网络采用双流并行卷积神经网络结构来分别处理EEG和EOG原数据. 此外, 模型使用由多头自注意力模块和残差网络构成的上下文学习模块来捕捉序列的多方面特征, 学习序列之间的关联性和重要性. 最后模型利用单向LSTM来学习睡眠阶段的过渡规则. 睡眠分期实验结果表明, 本文提出的模型在Sleep-EDF数据集上的总体准确率达到85.7%, MF1分数为80.6%, 且其准确率和鲁棒性优于现有的自动睡眠分期方法, 对自动睡眠分期研究有一定价值.

基于微服务分布式链路的服务质量优化策略

佟业新，曲新奎，杨皓然，张军涛，周明涛

2024, 33(9):140-152. DOI: 10.15888/j.cnki.csa.009628

摘要 (719) HTML (1396) PDF 2.28 M (1649) 评论 (0) 收藏

摘要:微服务架构作为一种敏捷而弹性的软件设计范式, 已经在当今的软件开发领域中取得了广泛的应用. 然而, 随着微服务数量的不断增加, 系统复杂度随之升高, 系统的服务质量随之下降, 如何提升微服务架构下的线上业务服务质量是一个重要命题, 而服务链路的优化是其中的关键挑战. 本文通过对微服务架构下服务链路的深入研究, 提出了链路抽样、链路拓扑生成、强弱依赖判定、循环调用识别、重复无效调用识别等链路分析方法, 并在此基础之上, 实践了一系列包括强弱演练、循环调用分拆、重复调用减支合并、故障自愈、链路溯源等在内的一系列有效的优化策略, 有效提升了微服务架构下的生产运行系统服务质量.

多模态深层次高置信度融合跟踪算法

高伟，薛杉，胡秋霞，李嘉琦，田杰，饶晔，杨举

2024, 33(9):153-163. DOI: 10.15888/j.cnki.csa.009633

摘要 (750) HTML (1450) PDF 4.47 M (1681) 评论 (0) 收藏

摘要:为解决单目标跟踪中因目标外观及环境变化导致的跟踪失败问题, 提出一种多模态深层次高置信度融合跟踪算法. 首先构建目标颜色模型和基于双线性插值HOG特征形状模型的高维度多模态模型, 之后对候选目标利用粒子滤波进行搜索. 针对模型融合的难点, 通过准确量化形状和颜色模型多种置信度并设计高置信度融合准则, 以实现该多模态模型中不同置信度的深层次自适应加权平衡融合. 最后针对模型更新参数固定的问题, 设计非线性分级平衡更新策略. 经过在OTB-2015数据集上的测试, 发现该算法的平均CLE和OS在所有参照算法表现中均表现最佳, 其值分别为30.57和0.609. 此外, 其FPS为15.67, 满足了跟踪算法在一般情况下的实时性要求. 在某些常见的特定场景中, 其精确率、成功率指标在多数情况下的表现也超过了同类顶尖算法.

联合CPD面向复杂场景的自适应激光SLAM算法

孙伟，叶健峰，张小瑞，郭邦祺，曾豪霆

2024, 33(9):164-173. DOI: 10.15888/j.cnki.csa.009644

摘要 (741) HTML (1508) PDF 3.06 M (1668) 评论 (0) 收藏

摘要:激光点云匹配是影响激光SLAM系统精度和效率的关键因素. 传统激光SLAM算法无法区分场景结构, 且在非结构化场景下由于特征提取不佳而出现性能退化. 为此, 提出一种联合CPD (coherent point drift)面向复杂场景的自适应激光SLAM算法CPD-LOAM. 该算法提出一种基于预判和验证相结合的场景结构辨识方法, 首先引入场景特征变量对场景结构进行初步判断, 然后从几何特征角度通过表面曲率对其进行验证, 增强对场景结构辨识的准确性. 此外, 在非结构化场景下添加CPD算法进行点云预配准, 进而利用ICP算法进行再配准, 解决该场景下的特征退化问题, 从而提高点云配准的精度和效率. 实验结果表明, 提出的场景特征变量以及表面曲率可以根据设置的阈值有效地区分场景结构, 在公开数据集KITTI上的验证结果显示, CPD-LOAM较LOAM算法定位误差降低了84.47%, 相较于LeGO-LOAM与LIO-SAM算法定位精度也分别提升了55.88%和30.52%, 且具有更高的效率和鲁棒性.

基于多标签语义分割的硬笔字笔画提取

余嘉云，李丁宇，徐占洋，王晶弘，林巍

2024, 33(9):174-182. DOI: 10.15888/j.cnki.csa.009620

摘要 (776) HTML (1382) PDF 1.71 M (1764) 评论 (0) 收藏

摘要:汉字作为中华文化的载体, 因其复杂的结构区别于其他文字. 笔画作为汉字的基本单元, 在硬笔字评价中起到至关重要的作用. 正确提取笔画, 是硬笔字评价的首要步骤. 现有的笔画提取方法多数是基于规则的, 由于汉字的复杂性, 这些规则通常无法顾及所有特征, 且在评价时无法根据笔顺等信息与模板字笔画匹配. 为了解决这些问题, 该文将笔画提取转化为多标签语义分割问题, 提出了多标签语义分割模型(M-TransUNet), 利用深度卷积模型以汉字为单位任务进行训练, 保留了笔画原有结构, 避免了笔画段组合的二义性, 同时得到了硬笔字的笔顺, 有利于笔画评价等下游任务. 由于硬笔字图像只分为前景和背景, 没有额外颜色信息, 所以更容易产生FP (false positive)分割噪声. 为解决此问题, 本文还提出了一种针对笔画分割结果的局部平滑策略(local smooth strategy on stroke, LSSS), 淡化噪声的影响. 最后, 本文对M-TransUNet的分割性能以及效率进行了实验, 证明了本文算法在很小性能损失的情况下, 极大地提升了效率. 同时对LSSS算法进行了实验, 证明其在FP噪声消除的有效性.

基于概率感知模型的线性无线传感网络可靠性分析

李兆，贾正锋，杨海波

2024, 33(9):183-191. DOI: 10.15888/j.cnki.csa.009625

摘要 (673) HTML (1202) PDF 1.83 M (1516) 评论 (0) 收藏

摘要:线性无线传感网络(linear wireless sensor network, LWSN)广泛应用于监测铁路、天然气管道等线性拓扑的关键基础设施, 其可靠性至关重要, 其中覆盖率是衡量可靠性的重要指标. 目前在评估LWSN覆盖率的方法大多采用0/1圆盘感知模型, 但实际中传感器的监测可靠性随着覆盖半径增加呈概率分布. 因此, 提出了一种基于概率感知模型的可靠性分析方法, 该模型可根据传感器的物理参数计算其有效感知范围, 进而提升了评估的准确性. 为减小系统状态空间的大小, 采用二元决策树构造LWSN的系统状态集合. 本文假设节点的故障概率符合Weibull分布并针对不同通信半径和感知范围进行仿真实验, 结果表明该方法可以有效地对LWSN的可靠性进行评估, 评估准确率相比0/1圆盘感知模型更精准.

变邻域模拟退火算法在农村生活垃圾收运中的应用

艾玉

2024, 33(9):192-200. DOI: 10.15888/j.cnki.csa.009622

摘要 (671) HTML (1256) PDF 1.92 M (1639) 评论 (0) 收藏

摘要:针对农村地区生活垃圾的产生特点, 考虑生活垃圾分类下的可变收运周期, 构建以最小化运输成本、车辆延迟到达惩罚成本和环境惩罚成本的多目标生活垃圾收运路径优化模型. 利用随机选择法、最近邻法相结合以重构解空间, 使用带变邻域的模拟退火算法对模型进行求解. 通过算例仿真及对比分析可知, 本文模型和算法在收运总成本和总距离方面有较好的优化效果, 均优于经典模拟退火算法和变邻域搜索算法的最优解. 相较于传统的固定周期收运方案, 本文所建立模型减去了环境污染成本, 同时在总成本上改进超110.4%, 可较好地解决农村地区垃圾收运路径优化问题.

降质感知的小波变换水下图像增强网络

刘祎恒，邓箴

2024, 33(9):201-207. DOI: 10.15888/j.cnki.csa.009616

摘要 (616) HTML (1354) PDF 1.69 M (1552) 评论 (0) 收藏

摘要:针对现有水下图像增强算法不能感知降质, 易丢失细节, 无法有效纠正色偏等问题, 提出了降质感知的小波变换水下图像增强网络模型. 该模型主要包含对比学习的降质表征提取网络和多级小波变换的水下图像增强网络. 首先, 降质表征提取网络利用编码器和对比学习的方法, 从每张水下图像中提取特有的降质表征; 随后, 以多级小波变换增强算法为指导思想, 构建三级小波变换模块, 旨在从频率域上实施多尺度的细节和颜色增强; 最后, 构建基于三级小波变换模块的多级小波变换增强网络, 并将提取的降质表征引入到该网络中, 以便在感知降质信息后, 更好地实施多级小波变换增强. 实验结果表明, 本算法较已有算法具有更强的颜色校正, 细节增强能力, 增强结果在结构相似性指标上提升16%, 峰值信噪比指标上提升9%, 水下图像质量指标上提升14%, 能用于水下图像增强任务.

融合注意力机制和二次特征提取的ResNet小样本农作物病虫害识别

汪志立，王定成，曹蓉，郑梦丽，刘亚鹏，卓欣

2024, 33(9):208-215. DOI: 10.15888/j.cnki.csa.009619

摘要 (863) HTML (1298) PDF 3.51 M (1605) 评论 (0) 收藏

摘要:针对传统机器学习方法对于小样本和多类别的农作物叶片病虫害识别效果和时间不理想的问题, 本文利用改进的ResNet模型来实现农作物病害识别. 通过加入dropout层、激活函数、最大池化层和注意力机制来提高模型的鲁棒性、特征捕捉能力、实现了用较低的模型参数量来提高病虫害识别的准确率. 首先对从公共数据集 Plant Village获取的图像进行预处理和增强, 将ReLU激活函数替换为PReLU, 解决ReLU函数在小于0部分神经元坏死的问题; 然后在全局平均池化层之前加入dropout层, 设置合理的阈值, 有效避免过拟合现象的发生, 增强模型的鲁棒性; 此外, 在dropout与全局平均池化层之间加入最大池化层, 不仅能扩大神经元的感受野, 还能帮助模型获取局部病虫害的最显著特征, 减小图片背景的噪声影响, 实现二次特征提取; 最后嵌入CBAM注意力机制, 使模型自动学习输入特征图中最重要的通道信息, 并对其进行通道与空间之间加权, 从而更好地捕捉图像中的语义信息. 实验结果表明, 改进后的模型对测试集识别准确度达99.15%, 模型参数量仅为9.13M, 与Xception、InceptionV3、原ResNet等模型相比, 准确率分别超过了1.01, 0.68, 0.59个百分点, 降低了模型参数量, 为农作物病虫害识别提供了一种先进的深度学习方法.

基于多重互信息约束的高表现力语音转换

王光，刘宗泽，姜彦吉，董浩

2024, 33(9):216-225. DOI: 10.15888/j.cnki.csa.009637

摘要 (588) HTML (1350) PDF 1.76 M (1466) 评论 (0) 收藏

摘要:随着语音转换在人机交互领域的广泛应用, 对于获取高表现力语音的需求日益显著. 当前语音转换主要通过解耦声学特征实现, 侧重对内容和音色特征的解耦, 很少考虑语音中混合的情感特性, 导致转换音频情感表现力不足. 为解决上述问题, 本文提出一种基于多重互信息约束的高表现力语音转换模型(MMIC-EVC). 在对内容和音色特征进行解耦的基础上, 引入表现力模块分别对话语级韵律和节奏特征进行建模, 以实现情感特性的传递; 随后通过最小化各特征之间的多重互信息变分对数上界, 约束各编码器专注于解耦对应的声学嵌入. 在CSTR-VCTK和ESD语音数据集上的实验表明, 本模型的转换音频语音自然度评分(MOS)达到3.78, 梅尔倒谱失真为5.39 dB, 最佳最差占比测试结果大幅领先于基线模型, MMIC-EVC能够有效解耦韵律和节奏特征, 并实现高表现力语音转换, 为人机交互带来更加出色和自然的用户体验.

应用FFB-EWT的OFDM辐射源个体识别

刘高辉，李瑞琛

2024, 33(9):226-234. DOI: 10.15888/j.cnki.csa.009610

摘要 (500) HTML (1290) PDF 1.77 M (1558) 评论 (0) 收藏

摘要:针对在传统辐射源个体识别方法中OFDM辐射源细微指纹特征信息会受到数据信号成分和信道噪声的影响会导致分类识别率低的问题, 根据短导码的子载波频谱特点设计了一种基于固定频率边界的经验小波变换(frequency fixed boundary-empirical wavelet transform, FFB-EWT)和深度残差网络的OFDM辐射源个体识别方法. 首先, 提取OFDM信号的短导码, 根据短导码中传输信号子载波的频率间隔划分固定边界条件, 将频域边界值应用于FFB-EWT对信号进行分解, 去除包含前导序列信息的子载波分量; 其次, 对相邻帧中包含指纹特征的空子载波分量进行积累, 提高指纹特征信号的信噪比; 然后, 使用双通道的结合了非局部注意力模块和通道注意力模块的ResNet18残差网络, 对IQ两路数据输入进行特征提取, 通过Softmax函数进行分类; 最后, 选择Oracle公开数据集验证方法的可行性. 实验结果表明利用FFB-EWT方法对6个不同辐射源个体在6 dB和0 dB条件下进行识别, 准确率可以达到98.17%和89.33%, 证明了该方法在低信噪比条件下的有效性.

面向电力系统暂态稳定性的联邦学习拜占庭节点检测

王子璇，吕娜，王瀚璇，周学财

2024, 33(9):235-244. DOI: 10.15888/j.cnki.csa.009578

摘要 (683) HTML (1237) PDF 2.09 M (1660) 评论 (0) 收藏

摘要:针对分布式智能电网各电力系统区域联合进行暂态稳定性判定和可能遇到的网络攻击问题, 提出了一种基于联邦学习的分布式电力系统暂态稳定判别算法及拜占庭节点检测算法. 联邦学习框架中, 各区域电网独立采用神经网络进行判稳, 中央服务器综合训练梯度并反馈更新. 为了提高该联邦学习框架的安全性, 通过对各区域电网的更新梯度进行聚类, 从而甄别离群点, 即受到攻击的区域电网, 实现拜占庭节点检测. 考虑到梯度的高维特性, 直接聚类会出现距离度量不准确的问题, 因此通过在线训练自编码器降维, 并对降维后的梯度进行密度聚类, 选择包含节点数目少的类别作为拜占庭节点集合, 并永久剔除拜占庭节点提供的梯度. 采用功角稳定机电暂态仿真算例进行验证, 结果表明, 本方法解决了电力系统暂稳判定时遇到的网络攻击问题, 相比其他方法具有明显提升的平均准确率和稳定性, 能有效避免判别准确率跳变情况.

基于深度强化学习的分层自适应PID控制算法

余文浩，齐立哲，梁瀚文，孙云权

2024, 33(9):245-252. DOI: 10.15888/j.cnki.csa.009598

摘要 (1500) HTML (2196) PDF 2.14 M (2619) 评论 (0) 收藏

摘要:比例积分微分(PID)控制在工业控制和机器人控制领域应用非常广泛. 然而, 其在实际应用中存在参数整定复杂、系统无法精准建模以及对被控对象变化敏感的问题. 为了解决这些问题, 本文提出了一种基于深度强化学习算法的分层自适应PID控制算法, 即TD3-PID, 用于移动机器人的自动控制. 其中, 上层控制器通过实时观测当前环境状态和系统状态实现对下层PID控制器参数和输出补偿量进行调整, 以实时补偿误差从而优化系统性能. 本文将所提出的TD3-PID控制器应用于4轮移动机器人轨迹跟踪任务并和其他控制方法进行了真实场景实验对比. 结果显示 TD3-PID控制器表现出更优越的动态响应性能和抗干扰能力, 整体响应误差显著减小, 在提高控制系统性能方面具有显著的优势.

基于改进YOLOv5s的路面病害检测

高晶，姚金杰，刘鹏杰，郭钰荣，王鸿儒，马文

2024, 33(9):253-260. DOI: 10.15888/j.cnki.csa.009611

摘要 (1078) HTML (1620) PDF 3.39 M (2192) 评论 (0) 收藏

摘要:针对路面病害检测中因病害形态多样、尺度差异大、背景灰度值相似而导致检测精度较低的问题, 提出一种改进的轻量化路面病害检测模型PD-YOLOv5s (pavement disease-YOLOv5s). 首先, 模型嵌入三维无参数注意力机制SimAM, 在不额外增加模型参数的同时有效增强模型在复杂环境下的特征提取能力; 其次, 引入残差块Res2NetBlock增加模型感受野, 增强模型在更细粒度层次上的特征融合能力. 最后, 构建SPD-GSConv模块完成下采样, 从而有效捕捉不同尺度的目标特征, 将提取的特征融入模型完成路面病害分类检测. 在真实路面病害数据集上实验结果表明: 相较于原YOLOv5s, PD-YOLOv5s模型平均精度值(mAP)提升4.7%, 参数量降低至6.78M, 检测速度达到53.97 f/s. PD-YOLOv5s在降低网络计算成本的同时具有优越的检测性能, 对路面病害检测具有工程应用价值.

基于对比学习及背景挖掘的少样本语义分割

王善杰

2024, 33(9):261-268. DOI: 10.15888/j.cnki.csa.009617

摘要 (559) HTML (1539) PDF 3.76 M (1724) 评论 (0) 收藏

摘要:少样本语义分割是在具有少量标注样本的查询图像的条件下, 对潜在对象类别进行分割的计算机视觉任务. 然而, 现有方法仍然存在两个问题, 这对它们构成了挑战. 首先是原型偏差问题, 这导致原型具有较少的前景目标信息, 难以模拟真实的类别统计信息. 另一个是特征破坏问题, 这意味着模型只关注当前类别而不关注潜在类别. 本文提出了一个基于对比原型以及背景挖掘的新网络. 该网络主要思想是使模型学习更具代表性的原型, 并从背景中识别潜在类别. 具体而言, 特定类学习分支构建了一个大且一致的原型字典, 然后使用InfoNCE损失使原型更具区分性. 另一方面, 背景挖掘分支初始化背景原型, 并使用构建的背景原型与字典之间的注意力机制来挖掘潜在类别. 在PASCAL-5ⁱ和COCO-20ⁱ数据集上的实验证明模型有优秀的性能. 在使用ResNet-50网络的1-shot设置下, 达到了64.9%和44.2%, 相较于基准模型分别提升了4.0%和1.9%.

基于注意力特征融合的跨模态行人重识别

邓淑雅，李浩源

2024, 33(9):269-275. DOI: 10.15888/j.cnki.csa.009604

摘要 (696) HTML (1583) PDF 2.26 M (1676) 评论 (0) 收藏

摘要:跨模态行人重识别任务旨在匹配同一行人的可见光图像和红外图像, 在智能安全监控系统中广泛应用. 由于可见光模态和红外模态存在固有的模态差异, 给跨模态行人重识别任务在实际应用过程中带来了巨大的挑战. 为了缓解模态差异, 研究人员提出了很多有效的解决方法. 但是由于这些方法提取的是不同模态之间的特征, 彼此缺少对应的模态信息, 导致特征缺少充分的鉴别性. 为了提高模型提取特征的鉴别性, 本文提出基于注意力特征融合的跨模态行人重识别方法. 通过设计高效的特征提取网络和注意力融合模块, 并在多种损失函数的优化下, 实现不同模态信息的融合和模态对齐, 从而促进模型匹配行人准确度的提升. 实验结果表明, 本方法在多个数据集上都取得了很好的性能.

微信公众号

网站二维码

当期目录

年份

刊期