2025, 34(7):1-13. DOI: 10.15888/j.cnki.csa.009942 CSTR: 32024.14.csa.009942
摘要:人工智能若想从根本上理解我们周围的世界, 关键在于它能否学会从所观察到的低级感官数据中识别并解开隐藏的潜在可解释因素. 解耦表征学习正是为了从数据中提取出这些独立且可解释的潜在变量, 而因果解耦表征学习则更进一步强调了这些潜在变量之间的因果关系, 从而更真实地模拟现实世界的复杂性. 鉴于因果学习的重要性日益增长, 本文对结合因果学习的解耦表征学习的相关方法进行了详细、全面地介绍, 旨在为解耦表征学习的未来发展提供支持. 根据常用的因果学习的相关方法对因果解耦表征学习进行分类, 主要探讨了结合结构因果模型和基于流模型的解耦表征学习方法以及常用的数据集与评价指标. 此外, 还分析了因果解耦表征学习在图像生成、3D姿态估计和无监督领域适应等应用的实际案例, 并对未来的研究方向进行前瞻性展望, 为科研人员和实践者揭示未来可能的探索方向, 促进该领域的持续发展和创新.
2025, 34(7):14-22. DOI: 10.15888/j.cnki.csa.009940 CSTR: 32024.14.csa.009940
摘要:光伏板的清洁与维护是光伏电站运行中的关键任务, 其中搭载机械臂和光伏清洁终端的光伏清洁摆渡车系统成为一种创新的解决方案. 这类系统需要精确获取光伏板的位姿, 包括车身相对光伏板的倾角与距离. 为解决这一问题, 本文提出了一种基于单目相机的光伏板视觉定位方法. 本文首先对YOLOv8-pose关键点检测模型进行改进以提高检测精度. 引入PSA注意力机制优化骨干网络, 采用DySample动态上采样模块并提出ADown*下采样模块对颈部网络进行增强. 然后结合改进后的YOLOv8-pose与光伏板的几何特征, 提出倾角和距离计算方法, 从而实现光伏板的姿态定位. 实验结果表明, 本文提出的改进算法相较于原始YOLOv8-pose计算的光伏板倾角与距离精度分别提升了26.2%与20.1%, 能够更准确地对光伏板进行定位.
2025, 34(7):23-36. DOI: 10.15888/j.cnki.csa.009878 CSTR: 32024.14.csa.009878
摘要:为解决复杂背景干扰导致的行人检测精度低和漏检率高的问题, 本文提出一种融合改进注意力的自适应双分支密集行人检测算法DACD-YOLO. 首先, 主干网络采用自适应融合双分支结构, 通过动态权重实现不同特征的融合, 并引入深度可分离卷积降低计算量, 有效缓解传统单分支网络中信息丢失的问题; 其次, 提出自适应视觉中心, 通过动态优化增强层内特征提取, 并重设通道数以平衡精度与计算量; 然后, 提出坐标双通道注意力机制, 结合异构卷积核设计轻量化融合模块, 降低计算复杂度并增强对关键特征的捕捉能力; 最后, 采用膨胀卷积检测头, 通过不同膨胀率卷积融合多尺度特征, 有效增强小目标和遮挡目标的特征提取能力. 实验结果表明, 与原版YOLOv8n相比, 改进算法在WiderPerson数据集上的mAP@0.5和mAP@0.5:0.95分别提高2.3%和2.2%, 在CrowdHuman数据集上mAP@0.5和mAP@0.5:0.95分别提升3.5%和4.6%. 实验结果表明, 改进算法在密集行人检测方面相较于原算法具有显著的精度提升.
2025, 34(7):37-47. DOI: 10.15888/j.cnki.csa.009939 CSTR: 32024.14.csa.009939
摘要:随着自动化技术和机器人领域的快速发展, 移动机器人路径规划的精确性要求日益提高. 针对深度强化学习在复杂环境下路径规划存在的收敛稳定性差、样本效率低及环境适应性不足等问题, 提出了一种改进的基于决斗深度双Q网络的路径规划算法(R-D3QN). 通过构建双网络架构解耦动作选择与价值估计过程, 有效缓解Q值过估计问题, 提高收敛稳定性; 设计时序优先经验回放机制, 结合长短期记忆网络(LSTM)的时空特征提取能力, 改进样本利用效率; 提出基于模拟退火的多阶段探索策略, 平衡了探索与利用, 增强环境适应性. 实验结果表明, 与传统DQN算法相比, R-D3QN算法在简单环境下平均奖励值提高了9.25%, 收敛次数减少了24.39%, 碰撞次数减少了41.20%; 在复杂环境下, 平均奖励值提升了12.98%, 收敛次数减少了11.86%, 碰撞次数减少了42.14%. 同时与其他改进的DQN算法对比也具有明显的优势, 验证了所提算法的有效性.
2025, 34(7):48-58. DOI: 10.15888/j.cnki.csa.009888 CSTR: 32024.14.csa.009888
摘要:随着互联网的普及, 越来越多用户倾向于在社交平台公开表达自己的个人细节和情感内容, 这些网络文本数据往往体现着不同场景下的真实表达, 反映了用户内在的心理特质及人格倾向. 近年来, 基于社交文本的人格检测研究取得了显著进展, 然而, 研究者们大多直接使用未经处理的公开数据集, 这些数据集因其收集过程导致不可避免地存在噪声, 此外, 大多过分依赖预训练模型提取的文本语义特征, 而缺乏对心理语言学特征的引入. 为了解决以上问题, 提出一种新型的人格检测研究方法. 该方法首先基于置信学习完成噪声数据清洗, 提高数据集质量. 其次, 提取多层次心理语言学特征来填补单一文本语义特征的不足. 最后通过动态深度图卷积网络来优化特征表达, 完成最终的人格检测任务. 在公开的Kaggle MBTI数据集上对该方法进行性能评估, 结果表明, 与目前先进的方法相比, 该方法在准确率和F1值上分别提升了5.48%和4.22%.
2025, 34(7):59-71. DOI: 10.15888/j.cnki.csa.009908 CSTR: 32024.14.csa.009908
摘要:光学遥感图像中的云遮挡问题是遥感数据处理中的核心挑战之一, 针对目前云层去除技术在处理云层边缘信息及保留图像细节方面的缺陷, 本文提出基于时谱域融合与时序自注意力增强的生成对抗网络(TGAN). TGAN通过其两阶段模块化设计, 实现了遥感图像修复质量与处理效率的双重提升. 第1阶段, 基于时序自注意力机制的特征提取模块, 用线性升维层捕获时域、谱域特征, 以一维线性降维层弥补传统最大池化不足, 增强时间序列位置特征建模能力, 还设计含权重分配策略的多头自注意力机制精准捕捉边缘信息; 第2阶段为自适应图像修复模块, 由随机噪声消除与局部对比增强子模块协同改善图像细节、抑制噪声. 此外, TGAN 的鉴别器采用多尺度模块, 这一策略实现了全局一致性与局部细节之间的平衡. 通过生成器与鉴别器之间的交互博弈, 生成器持续优化修复图像, 以提高修复效果. 这种动态的博弈过程推动了生成器在图像修复任务中的迭代优化. 为了验证TGAN的有效性, 本文在Sen2_MTC数据集上进行了实验. 实验结果表明, TGAN在峰值信噪比(PSNR)和主观视觉评估方面均显著优于现有方法, 在训练集和测试集的PSNR分别达到了21.547 dB和20.206 dB, 表明该方法在遥感云层图像修复任务中具有较好的性能与应用潜力.
2025, 34(7):72-83. DOI: 10.15888/j.cnki.csa.009918 CSTR: 32024.14.csa.009918
摘要:探测网络节点组成并分析其特征是提升比特币网络稳定性和安全性的基础. 现有研究主要侧重于网络节点属性分析, 较少关注节点探测方法本身的优化. 现有比特币网络节点探测方法存在时间长、开销大等不足. 本文将现有方法概括为无去重全遍历 (full traversal without deduplication, FTWD)测量模型并进行大量测量实验评估, 分析了影响其探测时间、开销及准确度的主要因素. 在此基础上, 提出一种改进的比特币网络节点探测方法BNP (Bitcoin node probe). 该方法通过增加初始轮次种子节点数量、引入轮次间新增节点比例指标、采用部分遍历策略等措施, 减少了探测时间和探测开销, 提升了探测效率. 实验结果表明, 与现有方法比较, BNP方法在随机选择比例为50%时, 虽探测节点总数略有下降, 但探测时间平均减少40.4%, 探测数据包开销平均减少21.4%.
2025, 34(7):84-95. DOI: 10.15888/j.cnki.csa.009887 CSTR: 32024.14.csa.009887
摘要:高光谱图像每个像素波段的关联性强, 在进行识别的过程中容易出现同谱异物的问题, 并且像素波段的维度也较高, 传统的模型难以在光谱空间和二维空间之间建立有效的特征关联. 针对这些问题, 本文提出一种结合分层深度可分离卷积与图卷积和分组自注意力(group separable self-attention, GSA)机制多尺度特征融合(SSG-VIT)的高光谱图像分类模型. 首先利用分层深度可分离卷积这种分层次的结构用不同大小的卷积核多尺度的提取高光谱图像中的局部空间特征并利用GSA捕获全局空间特征关系, 同时并行引入图卷积模块针对高光谱图像的光谱特征进行结构化特征建模去除冗余信息增强光谱特征的表达能力, 最后采用自适应特征融合(adaptive feature fusion, AFF)机制进行融合. 模型在Indian pines、Salinas、Botswana这3个高光谱数据集上进行了多次实验, 结果显示本模型的总体精度(OA), 分别达到了99.32%、99.67%、99.69%.
2025, 34(7):96-106. DOI: 10.15888/j.cnki.csa.009858 CSTR: 32024.14.csa.009858
摘要:随着网络环境与攻击手段的变化, 大部分网络攻击检测的方法应用在真实场景中会随着时间的推移逐渐丧失高性能, 导致检测结果不稳定. 因此本文针对变化的真实网络攻击设计了一种基于极值理论的持续学习异常检测系统E-TCEVT. 该系统的构建通过引入一种结合词级和子词级的混合语言模型, 用于从Web日志中有效提取特征. 在检测阶段, 采用基于极值理论和集成学习的思路, 通过集成多个基于不同时间点训练的模型防止模型微调时的灾难性遗忘, 实现模型对新旧样本的适应性和性能维持. 在开源数据集和真实数据集上的实验表明, 与单模型微调更新相比, 本文提出的方法具有更高的F1分数; 与传统的非更新的方法相比, 本文方法在召回率和F1分数上都表现更好.
2025, 34(7):107-116. DOI: 10.15888/j.cnki.csa.009877 CSTR: 32024.14.csa.009877
摘要:道路损坏对道路的使用寿命和安全性构成极大威胁, 及早发现道路损坏有利于进行维护和修理. 传统的道路缺陷检测技术通常依赖于手动视觉检测和车载道路路面监控系统, 然而这些方法在很大程度上受道路维护人员经验的影响. 随着深度学习的发展, 越来越多的研究者将其应用于道路缺陷检测领域, 其中最常见的当属YOLO系列目标检测方法及其各种变体. 但这类方法大多需要进行后处理操作, 这会阻碍模型优化、损害鲁棒性并导致检测器延迟推理. 针对这些问题以及道路缺陷检测中存在的多尺度问题, 本文提出了改进后的RT-DETR模型, 对主干网络的结构进行了微调, 并提出了MSaE注意力机制. 在编码器部分, 使用GhostConv卷积和DySample模块优化了上采样, 使用ADown模块优化了下采样. 本文在公开数据集SVRDD中进行了对比实验. 实验结果表明, 本文提出的改进方法在SVRDD 数据集中的mAP@50指标达到了72.5%, 相较于基准的RT-DETR-R18提高了3.8个百分点, 有效提升了道路缺陷检测能力.
2025, 34(7):117-127. DOI: 10.15888/j.cnki.csa.009892 CSTR: 32024.14.csa.009892
摘要:为了解决现有图像篡改检测方法在检测定位性能与鲁棒性方面的不足, 本文提出了一种多尺度感知学习网络(MsPL-Net). 首先, 为了扩展感受野并解决图像后处理和操作类型多样导致的鲁棒性弱的难题, 提出了一种分层密集链接多尺度扩展卷积模块(MSDCM). 该模块可放大感受野以捕捉多尺度特征信息, 同时保持输入图像的高分辨率表示, 无缝提取复杂的图像细节和边缘信息. 其次, 为了解决篡改大小敏感性导致的篡改边缘位置模糊问题, 提出了一种由全局注意力、局部注意力和门控特征调节器组成的信息互补感知注意力模块 (ICPAM). 全局注意可以捕捉图像的整体形状、结构或背景信息, 而局部注意可以学习图像的局部区域和具体细节, 两者交互融合, 提高定位精度. 门控特征调节器采用精细嵌入从全局和局部特征图中过滤出不相关的特征和噪声响应, 引导下游识别和学习由不同篡改技术引起的异常纹理、边缘变化和其他特征信息. 最后, 设计一种新的联合损失函数, 进一步提高网络的检测性能和定位准确率. 相较于最新工作, 本文方法的检测准确率提高了2.3%. 此外, 在鲁棒性和泛化性上同样表现出较好的性能, 以及篡改区域定位更精确和清晰.
2025, 34(7):128-139. DOI: 10.15888/j.cnki.csa.009889 CSTR: 32024.14.csa.009889
摘要:现有的基于自注意力的会话推荐融合所有高阶邻居信息, 在丰富节点项目表示的同时也带来了节点项目表示同质化及弱相关邻居对项目表示产生干扰的问题. 针对这些问题, 提出一种基于图注意力和会话偏好识别的会话推荐模型. 模型在生成节点项目嵌入时仅选择μ阶邻居, 采取图注意力机制聚合μ阶邻居特征信息; 同时, 针对不同用户的不同会话偏好不一的情况, 提出会话偏好分类识别及会话嵌入学习方法, 将会话偏好分为偏好集中和偏好发散两种类型, 进行分类计算; 最后, 应用软注意力机制融合会话中的项目嵌入学习得到会话嵌入表示进行预测. 在Nowplaying和Diginetica两个真实数据集上进行实验, 与基线方法相比, 本文模型均达到了更优的实验效果.
2025, 34(7):140-151. DOI: 10.15888/j.cnki.csa.009882 CSTR: 32024.14.csa.009882
摘要:针对捕鱼打捞、海底勘探等行业存在的现有水下设备存储和计算资源有限, 检测模型体积庞大, 难以在终端设备高效运行的问题, 提出一种融合剪枝和知识蒸馏的轻量级水下生物检测算法, 首先设计C2f_GSConv结构来替换原有YOLOv8n颈部网络中的C2f模块, 减少模型整体的计算复杂度, 优化模型结构; 其次引用MPDIoU来替换CIoU作为新的损失函数, 加快回归边界框收敛速度, 提升检测性能; 然后利用LAMP剪枝算法对模型进行裁剪, 去除冗余的通道信息和卷积核, 进一步地减少参数量和计算量, 压缩模型体积; 最后通过知识蒸馏来恢复模型的检测精度, 减少剪枝带来的不必要的精度损失. 实验结果表明, 在URPC数据集上, 改进后的模型相较于基准模型YOLOv8n, mAP50提升了1.8%, 参数量减少了62%, 计算量减少了56%, FPS提高了186 f/s. 通过在嵌入式开发板上进行部署验证, 结果同样具备良好的性能, 因此能够满足水下低配置设备的应用部署.
2025, 34(7):152-162. DOI: 10.15888/j.cnki.csa.009884 CSTR: 32024.14.csa.009884
摘要:现有文本图像阴影消除方法已取得了一定的进步, 但是这些方法主要关注图像本身和文本背景颜色信息, 忽视了真实场景中文本图像通常伴随密度不一致的阴影, 因此这些方法可能存在图像局部细节丢失、内容不协调等问题. 针对这个问题, 本文提出了一种基于密度和颜色信息指导的文本图像阴影消除算法. 首先, 设计了特征提取模块, 以提取输入图像的阴影密度和背景颜色信息. 随后, 在每一级模块输入之前, 利用自适应模块调整初始的阴影密度特征, 并结合背景颜色信息指导后续的阴影消除过程. 为了更好地提取图像的全局与局部特征, 本文提出了密度和颜色引导的Transformer模块和阴影敏感的局部特征提取模块, 并将两者结合作为主要阴影消除模块. 实验结果表明, 相比现阶段的文本图像阴影消除方法, 所提出的网络模型在性能上更加优越.
2025, 34(7):163-173. DOI: 10.15888/j.cnki.csa.009885 CSTR: 32024.14.csa.009885
摘要:颅内动脉瘤是脑血管的病理性扩张, 一旦破裂致死率极高. 人工检测颅内动脉瘤繁琐耗时, 因此有必要引入自动化检测技术. 为解决现存算法在处理点云数据时空间利用率低, 难以同时捕捉局部细节与整体结构的问题, 设计基于片序列注意力的颅内动脉瘤点云分割算法. 利用空间填充曲线将点云序列化, 改善了传统点云在提取局部结构信息时的效果. 提出更加精细化的片注意力, 利用片分组和片交互, 进一步加强模型对不同空间关系的泛化能力. 同时设计网格池化操作, 解决了传统算法对于信息密度和重叠不可控的问题. 该方法在IntrA数据集上获得了健康血管段IoU为95.37%、动脉瘤段IoU为84.67%的分割精度, 远优于大多数现存算法.
2025, 34(7):174-183. DOI: 10.15888/j.cnki.csa.009883 CSTR: 32024.14.csa.009883
摘要:全景切片图像中, 肾脏组织在形态上形状不规则, 大小差异显著, 在类别上不同的肾脏组织会有相似的纹理和结构, 并且还会存在类别不平衡的问题. 针对上述问题, 提出轻量级肾脏病理组织分割网络ASRMU-Net. 首先在网络浅层引入空间重构单元(SSRU), 利用平均值和最大值捕捉肾脏组织不同的空间信息, 通过门控机制和卷积操作自适应地重建空间特征, 通过交叉重组增强有用特征; 其次在网络中间层构建ASRM模块, 利用空间和通道的特征重建与融合, 增强特征表达能力; 接着在网络深层引入通道重构单元(CSRU), 采用自适应通道拆分、压缩与深度可分离卷积相结合的策略, 通过融合高维和低维特征, 并通过自适应加权重建, 从而有效区分有相似纹理和结构的不同组织; 最后通过改进损失函数来优化模型, 减轻类别不平衡的影响. 改进网络在间质纤维化数据集的MDice和MIoU为85.4%和74.8%, 在AIDPATH数据集上的MDice和MIoU为96.1%和92.4%. 结果表明, 改进网络以较少的参数量实现了比其他医学分割模型更高的分割精度.
2025, 34(7):184-194. DOI: 10.15888/j.cnki.csa.009906 CSTR: 32024.14.csa.009906
摘要:现有的基于哈希的图像篡改检测算法主要依赖于传统手工设计的特征, 导致生成的取证哈希缺乏细节信息, 难以达到基于对象的篡改定位效果以及应对各种复杂的篡改类型. 针对这一问题, 本文提出了一种基于哈希学习的图像篡改检测模型. 该模型主要由两个模块组成: 哈希构建模块和篡改定位模块. 在哈希构建模块, 提出一种基于深度学习的多尺度特征提取与融合模块. 该模块不仅可以融合不同尺度的图像特征, 而且可以构造出紧凑又信息密集的图像哈希; 在篡改定位模块, 通过比较原始图像与篡改图像哈希值的差异, 可以得到粗糙的篡改区域定位效果. 为进一步提升定位精度, 模块采用了逐层融合哈希差异与多尺度特征的解码策略. 该策略将全局信息与局部细节进行有效结合, 从而提升了模型的鲁棒性及各种复杂篡改的适应性. 实验在3个数据集上与9种最新方法进行了对比. 在CASIAv1数据集中, 本文方案相比于性能第2的模型, F1值提高了10.7%; 在Columbia数据集中, F1值提高了1%; 在COVERAGE数据集中, F1值提高了17%. 为了进一步验证所提系统中各模块的有效性及其对篡改检测性能的贡献, 本文方案在CASIAv1数据集上进行了多项消融实验. 结果表明, 所提出的各个模块均显著提升了整体的篡改检测效果. 为了验证模型的鲁棒性, 本文方案在CASIAv1数据集中对图像进行了JPEG压缩、高斯模糊和高斯噪声的鲁棒性测试, 实验结果表明, 该方法在各种干扰下仍然保持了优异的鲁棒性. 实验结果表明, 所提出的基于深度学习与哈希的图像篡改定位模型在性能上明显优于已有的篡改检测方法, 并且在3个公开数据集上表现出较强的泛化能力.
2025, 34(7):195-207. DOI: 10.15888/j.cnki.csa.009886 CSTR: 32024.14.csa.009886
摘要:陕西省西安市汉长安城遗址出土的骨签为西汉历史的研究工作提供了丰富资料, 受长期埋藏和人为开采影响, 大量骨签存在断裂现象, 造成语义信息缺失, 影响骨签分类归置效率. 为提高骨签分类归置效率, 本文提出了一种面向语义缺失的EWRCA骨签释文分类模型. 该模型利用ERNIE的8层编码器捕获文本的深层语义信息, 学习断裂和不完整的骨签释文信息; 通过融合ERNIE多层编码器的输出与Word2Vec生成的词向量, 提高对骨签释文独有词汇的理解能力; 将文本向量融合模块与TextRCNN-MHAtt模型结合, 有效捕获文本的上下文依赖, 增强文本的语义表示能力, 提升分类准确性; 引入融合注意力机制提高模型在处理骨签释文时的准确性. 实验结果表明, 该模型对汉长安城骨签释文的分类精度和准确率达到95.62%、95.2%, 能够有效提高骨签释文的分类精度.
2025, 34(7):208-214. DOI: 10.15888/j.cnki.csa.009899 CSTR: 32024.14.csa.009899
摘要:为解决黄瓜病害种类繁多且症状相似导致的识别困难问题, 本文提出一种改进的YOLOv9黄瓜病害识别模型BiFEL-YOLOv9, 以提高自然背景下黄瓜病害的检测精度. 首先在关键网络层引入加权双向特征金字塔网络模块(bidirectional feature pyramid network, BiFPN), 增强了模型对多尺度特征的融合能力; 其次结合特征增强模块(feature enhancement)和大核选择性注意力机制(large selective kernel block, LSKBlock)对原始的RepNCSPELAN4模块进行改进得到RNFEL模块, 增强了模型的特征表示能力及对复杂背景的鲁棒性. 实验结果表明, BiFEL-YOLOv9模型准确率达到97.96%、召回率达到95.51%、平均精度均值mAP_0.5和mAP_0.5:0.95分别达到98.21%和95.12%, 均优于原YOLOv9模型, 有效实现了黄瓜病害的检测与识别.
2025, 34(7):215-227. DOI: 10.15888/j.cnki.csa.009905 CSTR: 32024.14.csa.009905
摘要:大规模并行计算应用程序在执行过程中经常面临I/O性能瓶颈, 严重影响整体计算效率. 然而, 现有的I/O跟踪工具在捕获细粒度I/O行为和多层次分析方面存在开销高、侵入性强等问题. 为解决这一挑战, 本文提出了BpfioToolkit, 一种基于eBPF技术的非侵入式I/O跟踪与分析工具套件. 旨在通过跟踪并行应用程序发出的I/O请求, 记录详细的I/O行为日志, 以支持对复杂并行I/O模式的精准分析. BpfioToolkit可以高效地跟踪I/O堆栈中MPI-IO层、系统调用层及虚拟文件系统层的I/O操作, 准确地记录I/O请求频率、读写大小、文件偏移等关键指标. 通过关联各层次的I/O行为数据, BpfioToolkit提供精确且全面的I/O行为视图. 在多个典型并行应用程序和基准测试程序上的实验评估表明, BpfioToolkit在不同I/O强度场景下均保持极低的系统开销(仅0.54%–1.68%), 同时生成丰富的I/O行为数据. 这些数据帮助识别了诸如低效的I/O访问模式、I/O负载不均衡等I/O性能瓶颈. 验证了BpfioToolkit的实用性. BpfioToolkit为大规模并行计算环境中的I/O性能分析与优化提供了有力的技术支持, 展现出广泛的应用前景.
2025, 34(7):228-235. DOI: 10.15888/j.cnki.csa.009864 CSTR: 32024.14.csa.009864
摘要:针对现阶段实时语义分割方法模型冗余度高, 计算成本高和准确率低的问题, 本文提出了一种基于深度语义引导和注意力融合的实时语义分割方法. 采用MobileNetV3作为主干网络, 并在此基础上引入深度双分支并行操作, 使用语义分支指导修正空间分支中的像素点, 在不额外增加参数量的情况下增强了空间分支的细节特征. 此外, 引入注意力融合模块, 使用多尺度分支并行的子结构实现即时响应计算, 并提供一种跨空间信息聚合的方法以提高分割精度. 该方法在Cityscapes和CamVid数据集上以81.2 f/s和147.6 f/s的推理速度分别达到了75.2%和77.4%的MIoU, 同时参数量仅为3.4M. 实验结果表明, 本文方法在保持较少网络参数量的同时, 更好地权衡了语义分割的精度与速度.
2025, 34(7):236-243. DOI: 10.15888/j.cnki.csa.009875 CSTR: 32024.14.csa.009875
摘要:随着语音合成应用场景不断扩展, 对多人多情感语音合成的需求越来越大. 在实际应用中经常需要合成具有特定风格的语音信号. 为此提出一种基于注意力机制的端到端语音合成模型. 首先设计了说话人编码模块, 通过注意力机制提取语音信号中说话者的特征表示, 结合数据集中性别、年龄等特征标签构建说话人特征库; 其次设计风格编码模块, 通过注意力机制为不同梅尔特征通道赋予不同关注程度和权重; 然后使用K近邻构建虚拟说话人特征, 实现在不提供说话人及真实数据的情境下, 灵活组合不同说话人特征和风格特征, 搭配合成出具有特定特征风格的声音. 实验结果表明, 该模型对比SV2TTS模型有较快的训练速度, 能够合成具有特定风格的高质量的语音.
2025, 34(7):244-252. DOI: 10.15888/j.cnki.csa.009936 CSTR: 32024.14.csa.009936
摘要:针对多目标流水车间调度问题, 提出了一种邻域搜索(NS)算法, 旨在以加工时间和总延迟时间为优化目标构建调度模型. 该方法通过交换调度序列中的工件顺序生成新的解, 从而在解空间中高效探索. 算法从种群中的初始解开始, 不断通过工作顺序的交换产生候选解, 并利用适应值对这些解的优劣进行评估. 随着迭代优化的进行, 算法逐渐逼近全局最优解. 此外, 基于占优关系函数的方法用于评估解的相对优势, 通过参考点计算解在不同目标维度上的距离, 并以此衡量解的质量. 为了实现解空间的系统性探索, 本文采用基于汉明距离的解生成策略. 该方法通过构建解之间的最短汉明路径, 在保留解的优良特征的同时, 有效地探索未知解空间, 提升算法寻找全局最优解的能力. 通过20个不同规模算例的实验, 将NS算法与传统遗传算法(GA)及非支配排序遗传算法(NSGA-II)进行比较, 结果显示该方法在多目标优化上表现出色, 验证了其有效性和优势.
2025, 34(7):253-260. DOI: 10.15888/j.cnki.csa.009871 CSTR: 32024.14.csa.009871
摘要:讽刺是一种修辞手法, 通过言辞或行为表达出与字面意义相反或不同的含义, 常用于批评、讽刺、幽默或反讽, 通常包含对某种情况或观点的嘲笑或挖苦. 由于讽刺的复杂性, 导致讽刺检测很难只通过文本单个模态进行. 因此, 多模态讽刺检测得到了更多研究者的关注. 现有的方法通过注意力机制进行多模态讽刺检测, 然而它们在对齐和融合阶段有所不足, 无法筛选出对齐信息中的重要信息从而影响模型性能. 本文提出了一个基于注意力和图注意力的模型来进行多模态讽刺检测, 它通过多头跨模态注意力模块进行对齐, 通过自注意力增强两个模块输出中的重要信息的表达. 该模型的效果在一个基于Twitter的公开讽刺检测数据集上得到了验证.
2025, 34(7):261-271. DOI: 10.15888/j.cnki.csa.009828 CSTR: 32024.14.csa.009828
摘要:人像抠图是图像处理领域重要任务之一, 针对现有图像数据中人像前景尺度多样造成的人像抠取粗糙问题, 提出一种双金字塔式编码的人像语义感知自动抠图网络. 双金字塔式编码器包含输入金字塔和特征金字塔, 输入金字塔中输入图像等比例下采样后送入网络以保留原始图像细节, 特征金字塔结合带状卷积组和5个层级的编码块充分捕获不同层次的图像特征. 同时, 在双分支解码结构中, 全局分割解码分支上设计了视域扩张模块扩大网络感受范围, 进一步增强全局上下文信息的捕获; 局部细节分支上提出细节感知模块融合编码特征与解码输出, 引导网络关注人像轮廓. 在3个数据集上与6种人像自动抠图方法进行了对比实验, 所提方法的抠图性能均优于对比方法. 验证了所提方法能改善人像抠取的精细度, 提高了复杂图像数据下人像抠取的鲁棒性.
2025, 34(7):272-279. DOI: 10.15888/j.cnki.csa.009937 CSTR: 32024.14.csa.009937
摘要:气象探测环境保护工作是气象观测台站业务的重要一环, 密切关系观测数据精度和气象服务质量. 方法聚焦时间序列图像中树木、作物等自然生长的障碍物边界改变细微的特点, 提出了植入式的边界感知模块, 以监督引导的方式专注于障碍物边界特征信息的提取. 边界特征与主干网络特征通过边界引导模块进行融合, 强化模型对边界的关注程度. 实验选取了轻量化模型HRNet-W18作为方法基线, 在真实气象探测环境数据集上进行验证, 边界引导方法在树木、作物障碍物类别上有效提升了2.29%的mIoU, 总体分割效果达到95.82%, 超过其他14个主流语义分割方法, 更好地平衡了模型复杂度和效果精度.