2024, 33(2):1-12. DOI: 10.15888/j.cnki.csa.009402 CSTR:
摘要:现有的图像去模糊方法通常直接采用图像的空间域或频率域信息恢复清晰图像, 忽略了空间域信息和频率域信息的互补性. 利用图像的空间域信息可以有效地恢复物体结构, 而利用图像的频率域信息可以有效地恢复纹理细节. 本文提出了一种简单、有效的图像去模糊框架, 可以充分利用图像的空间域和频率域信息, 产生高质量的清晰图像. 首先采用两个结构相同但独立的网络分别从图像的空间域和频率域中学习模糊图像到清晰图像的映射关系; 然后使用一个单独的融合网络, 充分融合空间域和频率域的图像信息, 进一步提升清晰图像的质量. 3个网络链接形成一个端到端的、可学习的大网络, 不同网络之间相互影响, 通过联合优化最终得到高质量的清晰图像. 在公共图像去模糊数据集GoPro、Kohler以及RWBI上, 本文方法的峰值信噪比、结构相似度、平均绝对误差3个指标都优于9个先进的图像去模糊方法. 大量的实验结果验证了本文提出的融合空间域和频率域信息的图像去模糊方法的有效性.
2024, 33(2):13-22. DOI: 10.15888/j.cnki.csa.009388 CSTR:
摘要:近年来, 基于生成对抗网络的高光谱图像分类方法取得了很大进展. 它们虽可以缓解训练样本数量有限的问题, 但是容易受到训练数据不平衡的影响, 并且存在模式崩溃问题. 针对这些问题, 提出了一种用于高光谱图像分类的SPCA-AD-WGAN模型. 首先, 为了解决训练数据不平衡导致分类精度降低的问题, 添加了单独的分类器, 与判别器分开训练. 其次, 将Wasserstein距离引入网络, 以缓解GAN模型崩溃的问题; 在两个HSI数据集上的实验结果表明, SPCA-AD-WGAN具有更好的分类性能.
2024, 33(2):23-32. DOI: 10.15888/j.cnki.csa.009390 CSTR:
摘要:基于会话的推荐旨在根据匿名用户的短期交互数据来预测用户下一次交互项目. 现有图神经网络会话推荐模型大多在信息传播过程中平等对待所有邻居节点, 而没有区分他们对于中心节点的重要性, 从而给模型训练引入噪声. 此外, 随着图神经网络层数的增加, 过度平滑问题会随之产生. 针对上述问题, 本文提出结合跳跃连接的多层图注意力网络会话推荐模型(MGATSC). 首先利用图注意力网络学习邻居节点对于中心节点的重要性, 并堆叠多层网络以获取高阶邻居信息; 然后为了缓解过度平滑问题, 采用基于残差注意力机制的跳跃连接更新每层网络的节点嵌入, 并通过平均池化得到最终节点嵌入. 最后将反向位置嵌入融合到节点嵌入中, 经过预测层生成推荐. 在Tmall、Diginetica以及Retailrocket这3个公开数据集上的实验结果表明所提模型优于所有基线模型, 验证了模型的有效性与合理性.
2024, 33(2):33-42. DOI: 10.15888/j.cnki.csa.009391 CSTR:
摘要:针对传统的反演方法过于其依赖初始模型, 导致结果不稳定与计算效率低的问题, 提出一种融合独立循环神经网络和粒子群优化算法的随钻测井实时反演方法. 首先, 通过地层模型正演模拟产生的序列数据, 建立独立循环神经网络模型, 并引入注意力机制强调关键特征在随钻测井反演中的作用; 其次, 在粒子群优化算法中引入随机惯性权重提高粒子群算法的全局和局部搜索能力, 利用粒子群优化算法对神经网络模型进行超参数优化; 最后, 在正演模拟测试集与某油田
2024, 33(2):43-53. DOI: 10.15888/j.cnki.csa.009389 CSTR:
摘要:随着计算机网络和无线通信等技术的发展, 有关视频媒体文件的版权保护和信息安全问题日益成为人们关注的焦点, 对视频媒体文件加密是一种有效保护信息安全的方式, 传统的视频文件加密方法需要对视频媒体文件中所有的视频帧数据进行加密, 文件加密的效率较低, 加密过程比较耗时. 本文针对H.264/AVC视频帧的结构特点, 提出了一种基于国产SM2算法的视频媒体文件加密效率提升的方法, 该方法在加密视频媒体文件的过程中只加密视频数据中关键帧的NALU Header信息, 在检测到H.264分片的情况下同时也需要对non-IDR Header信息进行加密. 实验结果表明该方法可以在有效加密视频媒体文件的同时减少了加密所需的时间, 明显提升了视频媒体文件的加密效率.
2024, 33(2):54-61. DOI: 10.15888/j.cnki.csa.009396 CSTR:
摘要:标签噪声广泛存在、无法避免且影响深度网络模型的性能. 利用神经网络的“记忆效应”, 基于小损失原则的样本选择方法能简单有效地处理标签噪声. 本文基于特征空间中样本距离越近越相似的原则, 结合样本的高低置信度假设, 提出了新的样本选择原则以及二阶段加权样本选择重标签方法(WSSR-2s). (1)在训练前期阶段, 对于高置信度样本, 在特征空间中对其票权进行加权, 更好地引导训练; (2)在训练中后期阶段, 对于低置信度样本, 将其票权转移给其最相似的特征样本, 以更正确地训练. 在合成噪声数据集CIFAR-10、CIFAR-100以及真实噪声数据集ANIMAL-10N、WebVision的实验结果表明, 本文提出的方法取得更高的精度, 能够更好地处理标签噪声问题.
2024, 33(2):62-71. DOI: 10.15888/j.cnki.csa.009393 CSTR:
摘要:申威异构众核处理器运算核心访问主存的延迟很大, 程序中应尽量避免运算核心代码访问主存的操作. 全局偏移表存放程序中全局变量和函数的地址, 不适合保存在珍稀的运算核心局部存储空间中, 并且其访问模式通常比较离散, 因而也不适合对其做Cache预取, 访问全局偏移表引入的访问主存操作对程序性能影响较大. 本文针对异构众核程序静态链接与动态链接的使用场景, 分析链接器relaxation优化的使用限制, 通过“gp基地址+扩展偏移”的方法实现避免访问主存操作的全局符号重定位优化. 实验结果表明, 该重定位优化方法能够以增加少量代码为代价, 在运算核心代码调用函数与访问全局变量时有效避免访问全局偏移表引入的访问主存的操作, 提高众核程序的运行性能.
2024, 33(2):72-82. DOI: 10.15888/j.cnki.csa.009407 CSTR:
摘要:目前, 大多数图像去雾算法忽视图像的局部细节信息, 无法充分利用不同层次的特征, 导致恢复的无雾图像仍存在颜色失真、对比度下降和雾霾残留现象, 针对这一问题, 提出结合密集注意力的自适应特征融合图像去雾网络. 该网络以编码器-解码器结构为基本框架, 中间嵌入特征增强部分与特征融合部分, 通过在特征增强部分叠加由密集残差网络与CS联合注意模块构成的密集特征注意块, 使网络可以关注图像的局部细节信息, 同时增强特征的重复利用, 有效防止梯度消失; 在特征融合部分构建自适应特征融合模块融合低级与高级特征, 防止因网络加深而造成浅层特征退化. 实验结果表明, 所提算法在合成有雾图像数据集和真实有雾图像数据集上均表现优异, 在SOTS室内合成数据集上的峰值信噪比和结构相似性分别达到了35.81 dB和
2024, 33(2):83-93. DOI: 10.15888/j.cnki.csa.009426 CSTR:
摘要:在时间序列数据的异常检测中, 单一模型往往只提取与自身模型结构相关的时序特征, 从而容易忽略其他特征. 同时, 面对大规模的时序数据, 模型难以对时序数据的局部趋势进行建模. 为了解决这两个问题, 本文提出一种基于粒子群优化算法(particle swarm optimization, PSO)和外部知识的异常检测模型PEAD. PEAD模型以深度学习模型作为基模型, 引入快速傅里叶变换生成的外部知识来提高基模型对局部趋势的建模能力, 随后PEAD模型以Stacking集成学习的方式训练基模型, 再使用PSO算法对基模型的输出加权求和, 对加权求和后的重构数据进行异常检测, PSO算法能够让模型的最终输出共同关注时序数据的全局特征和时间特征, 丰富模型提取的时序特征, 从而提高模型的异常检测能力. 通过对6个公开数据集进行测试, 研究结果表明PEAD模型在大部分数据集上表现良好.
2024, 33(2):94-104. DOI: 10.15888/j.cnki.csa.009385 CSTR:
摘要:方面级多模态情感分类任务的一个关键是从文本和视觉两种不同模态中准确地提取和融合互补信息, 以检测文本中提及的方面词的情感倾向. 现有的方法大多数只利用单一的上下文信息结合图片信息来分析, 存在对方面和上下文信息、视觉信息的相关性的识别不敏感, 对视觉中的方面相关信息的局部提取不够精准等问题, 此外, 在进行特征融合时, 部分模态信息不全会导致融合效果一般. 针对上述问题, 本文提出一种注意力融合网络AF-Net模型去进行方面级多模态情感分类, 利用空间变换网络STN学习图像中目标的位置信息来帮助提取重要的局部特征; 利用基于Transformer的交互网络对方面和文本以及图像之间的关系进行建模, 实现多模态交互; 同时补充了不同模态特征间的相似信息以及使用多头注意力机制融合多特征信息, 表征出多模态信息, 最后通过Softmax层取得情感分类的结果. 在两个基准数据集上进行实验和对比, 结果表明AF-Net能获得较好的性能, 提升方面级多模态情感分类的效果.
2024, 33(2):105-114. DOI: 10.15888/j.cnki.csa.009386 CSTR:
摘要:轴承温度是衡量鼓风机是否正常运行的重要指标之一. 然而, 轴承通常安装在狭小密闭的空间中, 导致其温度难以实时准确检测. 为了解决这个问题, 设计了基于知识图谱的鼓风机轴承温度智能预测方法. 利用统计方法分析鼓风机运行系统, 获取与轴承温度相关的影响因素. 结合运行机理和领域知识构建知识图谱, 提取影响轴承温度的直接和间接特征变量. 采用双模块模糊神经网络对知识图谱进行推理, 实现对鼓风机轴温的实时准确预测. 结果表明, 基于知识图谱的鼓风机轴承温度智能预测方法可以准确地建模鼓风机系统, 具有良好的温度预测能力. 该项研究可以为轴承温度的实时监测和变化趋势预测提供支持.
2024, 33(2):115-124. DOI: 10.15888/j.cnki.csa.009395 CSTR:
摘要:伪装目标检测(COD)旨在精确且高效地检测出与背景高度相似的伪装物体, 其方法可为物种保护、医学病患检测和军事监测等领域提供助力, 具有较高的实用价值. 近年来, 采用深度学习方法进行伪装目标检测成为一个比较新兴的研究方向. 但现有大多数COD算法都是以卷积神经网络(CNN)作为特征提取网络, 并且在结合多层次特征时, 忽略了特征表示和融合方法对检测性能的影响. 针对基于卷积神经网络的伪装目标检测模型对被检测目标的全局特征提取能力较弱问题, 提出一种基于Transformer的跨尺度交互学习伪装目标检测方法. 该模型首先提出了双分支特征融合模块, 将经过迭代注意力的特征进行融合, 更好地融合高低层特征; 其次引入了多尺度全局上下文信息模块, 充分联系上下文信息增强特征; 最后提出了多通道池化模块, 能够聚焦被检测物体的局部信息, 提高伪装目标检测准确率. 在CHAMELEON、CAMO以及COD10K数据集上的实验结果表明, 与当前主流的伪装物体检测算法相比较, 该方法生成的预测图更加清晰, 伪装目标检测模型能取得更高精度.
2024, 33(2):125-133. DOI: 10.15888/j.cnki.csa.009401 CSTR:
摘要:在基于深度学习的医学图像配准中, 当医学图像中包含多种组织类型时, 不同组织之间结构的不同可能会导致网络配准的精度下降, 特别是在复杂形变区域, 如组织的交界处和病变区域, 精准的配准变得更加困难, 现有的配准算法对复杂形变区域的关注度不高, 导致配准精度较低. 同时现有的配准网络无法同时对图像的局部和全局空间信息进行捕获, 导致网络的鲁棒性不够, 在迁移到其他器官的配准工作中时配准准确率低. 为了解决上述的问题, 本文提出一种基于多空间信息提取的级联分块配准模型, 本模型可以有效利用输入图像的局部和空间信息, 并通过分块融合的技术, 将医学图像进行分块并依次对每个图像进行精细配准生成相应的形变场块, 在模型的最后阶段将生成的形变场块进行融合还原, 以增强网络对局部复杂形变区域的配准强度. 实验结果表明, 所提方法不仅在脑部配准上有所提升, 并且在其他人体部位的配准中也有较好的表现, 提高了医学图像配准的准确性和可靠性, 为临床医生提供更好的诊断和治疗支持.
2024, 33(2):134-142. DOI: 10.15888/j.cnki.csa.009404 CSTR:
摘要:高分辨率遥感图像有丰富的空间特征, 针对遥感土地覆盖方法中模型复杂, 边界模糊和多尺度分割等问题, 提出了一种基于边界与多尺度信息的轻量化语义分割网络. 首先, 使用轻量化的MobileNetV3分类器, 采用深度可分离卷积来减少计算量. 其次, 使用自顶向下和自底向上的特征金字塔结构来进行多尺度分割. 接着, 设计了一个边界增强模块, 为分割任务提供丰富的边界细节信息. 然后, 设计了一个特征融合模块, 融合边界与多尺度语义特征. 最后, 使用交叉熵损失函数和Dice损失函数来处理样本不平衡的问题. 在 WHDLD数据集的平均交并比达到了59.64%, 总体精度达到了87.68%. 在DeepGlobe数据集的平均交并比达到了70.42%, 总体精度达到了88.81%. 实验结果表明, 该模型能快速有效地实现遥感图像土地覆盖分类.
2024, 33(2):143-150. DOI: 10.15888/j.cnki.csa.009394 CSTR:
摘要:针对U-Net模型在MRI脑肿瘤分割上存在的感受野受限和全局信息捕获不足问题, 通过引入非局部自注意力机制与多尺度的金字塔卷积提出一种改进U-Net模型—PyCSAU-Net. 该模型以三维U-Net作为基础网络, 在第4层横向连接位置引入扩展的三维非局部注意力模块, 通过改善网络因卷积核大小受限导致的长距离建模能力不足问题来提升脑肿瘤分割精度; 此外, 在网络下采样阶段将普通卷积替换为具有多尺度特点的三维金字塔卷积, 在多级别和分辨率下来提取更具判别性的脑肿瘤深度特征. 在公开的BraTS 2019和BraTS 2020验证集上在完全肿瘤、增强肿瘤和肿瘤核心分割上分别取得了0.904/0.901、0.781/0.774和0.825/0.824的分割精度, 表明所提出PyCSAU-Net方法在脑肿瘤分割任务上的有效性和竞争力.
2024, 33(2):151-158. DOI: 10.15888/j.cnki.csa.009400 CSTR:
摘要:为解决无人机在低光照环境下的巡检过程中, 不能对场景中的异物进行识别与定位, 导致后续智能算法无法获得环境语义信息的问题. 本文提出一种将ORB-SLAM2算法与适用于低光照目标检测改进的YOLOv5模型进行信息融合的方法. 首先, 通过RGB-D相机自采集低光照数据集进行深度学习训练及融合算法验证. 然后, 结合关键帧信息、目标检测模块的输出结果以及相机的固有信息完成目标像素坐标提取. 最后, 通过关键帧信息和像素坐标完成目标物体相对世界坐标系的位置解算. 本文实现了低光照环境下目标物体较为准确的识别和目标物体在世界坐标系中分米级的定位, 为低光照环境下无人机智能巡检提供了一种有效的解决方案.
2024, 33(2):159-165. DOI: 10.15888/j.cnki.csa.009379 CSTR:
摘要:了解岩石的孔隙度、孔径分布、孔隙连通性等特征对于油气的寻找和开采有着重要的意义, 而这些特征的分析和判断需要借助岩石薄片图像分割技术. 岩石薄片图像有大量细小颗粒, 这些颗粒之间的边缘特征十分相似, 无法做出精准的区分, 同时制造切片过程中染色不均会造成薄片孔隙的颜色特征不平衡而导致无法分割. 因此为了改善岩石薄片分割效果, 本文提出基于一种改进的U2Net的分割算法. 主要内容如下: (1)以U2Net网络为骨干进行改进, 结合coordinate attention注意力机制, 用来提高模型对图像特征的表达能力. (2)通过引入多尺度特征提取模块, 增加卷积层的感知区域, 且能够利用特征图的多尺度特征信息. 实验证明, 该方法与传统分割方法和其他分割网络相比在较小颗粒的分割上表现更好, 所提出的算法具有较高的分割准确度和鲁棒性.
2024, 33(2):166-175. DOI: 10.15888/j.cnki.csa.009422 CSTR:
摘要:医学领域中, 患有相同疾病的患者之间也存在差异性, 看似简单的疾病也可能表现出不同程度的复杂性, 这给患者的识别、治疗和预后都带来巨大挑战. 本文使用以纵向非结构化时序存储的电子病历来解决患者异质性, 通过抓住就诊时间间隔不规律的特点增强对于隐藏信息的获取, 经过前向和后向的双向学习捕捉当前就诊记录与过去和未来信息的联系, 加深对于原序列特征提取的层次, 使模型做出更为精准的决策. 本文提出的BT-DST模型使用time-aware LSTM单元构造双向自动编码器学习患者强大的单一表示, 然后将其用于患者聚类, 通过统计分析得到患者针对当前疾病的亚型分型, 可针对不同群体采用不同类型的治疗干预, 为不同类患者提供针对其健康状况的精准医疗.
2024, 33(2):176-187. DOI: 10.15888/j.cnki.csa.009387 CSTR:
摘要:针对小目标检测及目标被遮挡的问题, 本文基于VisDrone2019数据集构建相应交通场景, 提出一种小目标检测算法. 首先, 充分利用主干网络的浅层特征改善小目标漏检的问题, 通过在YOLOv7算法原有的网络结构上增加小目标检测层P2, 并在P2小目标检测层的模型上为特征融合网络添加多层次浅层信息融合模块, 从而提高算法小目标检测效果. 其次, 使用全局上下文模块构建目标与全局上下文的联系, 增强模型区分目标与背景的能力, 改善目标因遮挡而出现特征缺失情况下的被检测效果. 最后, 本文采用专为小目标设计的损失函数NWD代替基线模型中的CIoU损失函数, 从而解决了IoU本身及其扩展对微小物体的位置偏差非常敏感的问题. 实验表明, 改进后的YOLOv7模型在航拍小目标数据集VisDrone2019 (测试集和验证集)上面mAP.5:.95分别有2.3%和2.8%的提升, 取得了十分优异的检测效果.
2024, 33(2):188-197. DOI: 10.15888/j.cnki.csa.009408 CSTR:
摘要:随着可穿戴设备大规模进入生活, 基于动作传感器产生的时序数据来人体行为识别已成为该领域的研究热点. 然而目前的方法无法发现多个传感器数据在时空中相互作用的关系. 此外, 传统神经网络在学习新任务时, 由于学习的新任务参数会覆盖掉旧任务参数, 这会引起“灾难性遗忘”问题. 为解决这两个问题, 本文提出了一种基于图注意力网络与生成式回放持续学习机制融合方法的人体行为识别算法. 该算法通过卷积神经网络与图注意力网络提取时序特征, 使得模型能够同时关注时间与空间特征, 同时, 采用了基于生成式数据重放策略的情景记忆持续学习方法, 通过条件变分自编码器记忆历史数据分布来解决灾难性遗忘问题. 最后, 通过在多个公开数据集上与不同的基线算法对比, 实验结果表明本文所提算法可以在取得较高的准确率的同时, 缓解灾难性遗忘问题.
2024, 33(2):198-206. DOI: 10.15888/j.cnki.csa.009384 CSTR:
摘要:考虑到传统边缘检测算法难以处理模糊的医学图像, 提出一种基于深度学习的边缘检测网络ECENet. 首先, 本文网络基于CHRNet模型, 对其最后两层进行剪枝, 使模型更加高效和轻量化. 其次, 在网络的特征提取阶段加入注意力模块SKSAM, 优化图像特征的自适应提取, 并降低噪声的影响. 最后, 在多尺度的网络输出上采用上下文感知融合块进行连接, 帮助模型更好地理解图像的结构和语义信息. 此外, 综合考虑像素级别的准确性和边界的平滑性, 优化了损失函数, 为模型训练提供更好的梯度信号. 实验结果表明: 本文算法在最佳数据集规模(ODS)和最佳图像比例(OIS)指标分别提高到0.816和0.823; 相关边缘指标参数显著提高, PSNR提高了16.8%, SSIM提高了37.6%.
2024, 33(2):207-215. DOI: 10.15888/j.cnki.csa.009398 CSTR:
摘要:传统边缘检测算法难以处理复杂的图像, 而现有基于深度的边缘检测模型, 其检测结果往往存在边缘定位错误和信息丢失等现象. 针对此类问题, 提出一种基于RCF的高精度的边缘检测算法RCF-CLF. 首先, 引入HDC结构设计用于避免因叠加相同膨胀卷积而引起的网格效应; 其次, 设计了一种特征增强结构, 旨在融合多尺度信息、扩大感受野; 然后, 设计了跨层融合结构, 将高层信息和低层信息融合, 用于提取准确的边缘信息; 最后, 引入注意力机制CBAM, 通过聚焦物体边缘区域, 抑制非边缘区域, 从而提高网络对边缘信息的提取能力. 本文在BSDS500和BIPED数据集上评估所提出的方法, 与RCF算法相比, 在BIPED数据集上, 主要指标ODS、OIS和AP分别达到了0.893、0.901和0.945, 提高了近5个百分点, 在BSDS500数据集上, 主要指标也有所提升. 此外, 与其他同类算法相比, 本文算法也具有一定的优势, 可以实现更加准确的边缘定位.
2024, 33(2):216-223. DOI: 10.15888/j.cnki.csa.009427 CSTR:
摘要:复合片是PDC钻头的核心切削单元, 复合片自动检测技术是复合片自动修复技术的基础. 本文提出了一种基于改进YOLOv7的PDC钻头复合片检测方法, 在YOLOv7的基础上, 用深度可分离卷积替换了常规卷积, 减少了参数量和运算成本; 引入了SimAM注意力机制, 不需要额外的参数便可以从神经元中推导出3D注意力权重, 而且还能提高卷积神经网络的表达能力; 用SPPFCSPC替换了SPPCSPC, 在保证感受野不变的同时获得了速度的提升; 采用K-means++算法聚类先验框, 使用启发式算法定位出缺损的复合片. 实验结果表明, 本文算法较原YOLOv7模型mAP提高了2.75%, 参数量减少了约80%, 推理速度提高了9.12 f/s, 且较其他算法也有较大优势, 可实现复合片检测的工业应用.
2024, 33(2):224-231. DOI: 10.15888/j.cnki.csa.009397 CSTR:
摘要:针对标准蜣螂优化算法(DBO)存在的全局探索能力欠缺、收敛精度低及易陷入局部最优等不足, 提出了一种融合多策略的改进蜣螂优化算法(MSDBO). 首先, 引入社会学习策略引导推球蜣螂进行位置更新, 提高了算法全局探索能力, 避免算法陷入局部最优; 其次, 提出一种方向跟随策略, 建立起小偷蜣螂与推球蜣螂个体间的交互, 提高了寻优精度; 最后, 引入环境感知概率, 引导小偷蜣螂合理采用方向跟随策略, 兼顾了性能与时间消耗. 在12个基准测试函数上进行求解分析, 并与其他优化算法进行对比, 证明了MSDBO的寻优性能明显优于对比算法, 在压力容器设计优化问题上的结果验证了MSDBO求解实际工程约束优化问题的有效性.
2024, 33(2):232-238. DOI: 10.15888/j.cnki.csa.009415 CSTR:
摘要:在无人机摄影测量中, 针对传统的地面点云提取方法对图像点云数据中的道路提取适应性较差的问题, 本文提出了一种无人机摄影测量点云道路自适应提取方法. 首先, 根据点云的空间几何特征将点云划分为3个类别; 然后, 针对非道路的点云类别采取相应的方法进行剔除; 最后, 对经过自适应提取方法得到的点云数据进行滤波平滑和基于颜色的区域生长分割处理. 实验结果表明, 该方法提取的道路点云的I类误差为4.97%, II类误差为1.14%. 该方法能够有效地提取目标道路路面, 提高了无人机摄影测量工程应用中点云数据处理的效率.
2024, 33(2):239-245. DOI: 10.15888/j.cnki.csa.009428 CSTR:
摘要:针对多目标流水车间调度Pareto最优问题, 本文建立了以最大完工时间和最大拖延时间为优化目标的多目标流水车间调度问题模型, 并设计了一种基于Q-learning的遗传强化学习算法求解该问题的Pareto最优解. 该算法引入状态变量和动作变量, 通过Q-learning算法获得初始种群, 以提高初始解质量. 在算法进化过程中, 利用Q表指导变异操作, 扩大局部搜索范围. 采用Pareto快速非支配排序以及拥挤度计算提高解的质量以及多样性, 逐步获得Pareto最优解. 通过与遗传算法、NSGA-II算法和Q-learning算法进行对比实验, 验证了改进后的遗传强化算法在求解多目标流水车间调度问题Pareto最优解的有效性.
2024, 33(2):246-252. DOI: 10.15888/j.cnki.csa.009414 CSTR:
摘要:肝脏MRI影像的脂肪定量标准化过程中常需要对肝脏感兴趣区域进行手工采样, 但手工采样策略耗时且结果多变. 基于深度学习方法的全肝分割与手工勾勒的感兴趣区域在进行脂肪定量分析时, 变异性误差和不确定性程度更低, 性能更优越. 在进行全肝分割任务时, 为了提升分割性能, 本文在UNETR++模型的基础上, 进行改进. 该方法融合卷积神经网络和Transformer结构各自的优点, 增加卷积结构分支用于补足局部特征, 同时引入门控注意力机制, 抑制不相关的背景信息, 使模型更为突出分割区域的显著特征. 相比于UNETR++及其他分割模型, 改进的方法具有更优的DCS及HD95指标.
2024, 33(2):253-264. DOI: 10.15888/j.cnki.csa.009413 CSTR:
摘要:图片相似度比对作为计算机视觉的一个研究方向, 具有广泛的应用前景, 例如人脸识别、行人重识别和目标跟踪等. 然而, 目前有关图片相似度算法的总结和归纳相对较少, 并且将其应用在实际工业生产中也存在挑战. 本文总结了传统图像处理算法和深度学习图像处理算法在图片相似度比对方面的原理与表现, 旨在选取最佳的算法用于药品图片相似度比对的场景中. 在传统图像处理算法中, ORB算法在测试集上表现最佳, 准确率为93.09%; 在深度学习算法中, 采用改进的孪生网络结构、发明了一种标签生成法、设置特定的数据增强策略并增加一个特征面分类网络, 从而提高了训练效率和准确率. 最终的测试结果显示, 改进的孪生网络表现最佳, 可以实现98.56%的准确率和27.80次/s的推理速度. 综上所述, 采用改进的孪生网络算法更适用于药品图片的快速比对, 并且有望在未来的医药行业中得到广泛应用.
2024, 33(2):265-275. DOI: 10.15888/j.cnki.csa.009406 CSTR:
摘要:针对现有深度模型在工业轴承外观缺陷检测领域, 存在模型参数量大、特征融合不充分以及对小目标检测精度低等问题, 提出了一种轻量化自适应特征融合检测网络(Efficient-YOLO). 首先, 该网络采用嵌入CBAM注意力机制的EfficientNetV2结构进行基本特征提取, 便于确保模型精度同时显著优化模型参数量; 其次, 设计了一种自适应特征融合网络(CBAM-BiFPN), 用来增加网络对有效特征信息的提取; 接着, 在下游特征融合网络引入Swin?Transformer机制, 同时配合上游网络引入的Ghost卷积, 大幅度提高模型对轴承外观缺陷的全局感知能力; 最后, 在推理阶段运用改进的非极大值抑制方法(Soft-CIoU-NMS), 加入距离有关的权重评价因素, 减少了重叠框的漏检. 实验结果表明: 与现有主流检测模型相比, 此方法在轴承表面缺陷数据集上, mAP达到了90.1%, 参数量降低至1.99M, 计算量为7 GFLOPs, 对轴承缺陷小目标识别率显著提升, 满足工业现场轴承外观缺陷检测需求.
2024, 33(2):276-283. DOI: 10.15888/j.cnki.csa.009405 CSTR:
摘要:为了提高中文唇音同步人脸动画视频的真实性, 本文提出一种基于改进Wav2Lip模型的文本音频驱动人脸动画生成技术. 首先, 构建了一个中文唇音同步数据集, 使用该数据集来预训练唇部判别器, 使其判别中文唇音同步人脸动画更加准确. 然后, 在Wav2Lip模型中, 引入文本特征, 提升唇音时间同步性从而提高人脸动画视频的真实性. 本文模型综合提取到的文本信息、音频信息和说话人面部信息, 在预训练的唇部判别器和视频质量判别器的监督下, 生成高真实感的唇音同步人脸动画视频. 与ATVGnet模型和Wav2Lip模型的对比实验表明, 本文模型生成的唇音同步人脸动画视频提升了唇形和音频之间的同步性, 提高了人脸动画视频整体的真实感. 本文成果为当前人脸动画生成需求提供一种解决方案.
2024, 33(2):284-290. DOI: 10.15888/j.cnki.csa.009392 CSTR:
摘要:障碍物的检测与跟踪技术是移动机器人行驶过程中的一个重要技术, 有利于提高移动机器人的运动安全. 为了提高了障碍物检测的准确率, 针对欧氏聚类存在过分割和欠分割的情况, 做出了两点改进: 提出动态欧氏聚类搜索半径的方法来解决远处点云过于稀疏的问题; 提出将半径搜索改成深度方向上的拓展搜索的方法来解决点云数据在深度方向上检测不完全和拖尾等问题. 为了提高动态障碍物跟踪的准确率, 在进行两帧障碍物数据关联时, 设计了一种新的关联矩阵的计算方式, 加入了障碍物的六自由度信息和尺寸信息, 提高了动态匹配的成功率. 仿真实验表明, 经过改进后障碍物检测准确率达到了95.2%, 多目标跟踪精度达到了13.2 mm.
2024, 33(2):291-298. DOI: 10.15888/j.cnki.csa.009425 CSTR:
摘要:在临床实践中, 精确评估疼痛对于疼痛管理和诊断至关重要. 但传统的评估方法主观性高且依赖医生经验, 迫切需要更可靠客观的替代方法. 利用深度学习的方法实现基于面部表情的疼痛检测研究近年已取得显著进展, 但复杂的结构和高计算成本制约了其实际应用. 因此, 本文提出了一个改进的3D卷积神经网络, 采用轻量级的3D卷积神经网络L3D作为骨干网络, 并结合改进的SE注意力机制, 把多个不同尺度的特征进行融合, 捕捉疼痛序列中具有较强辨别能力的时空特征. 在UNBC-McMaster和BioVid数据集上进行评估, 与最新方法相比, 该方法在疼痛检测性能以及计算复杂度上取得了优势.
2024, 33(2):299-307. DOI: 10.15888/j.cnki.csa.009399 CSTR:
摘要:针对光缆、高压油气管道等地下基础设施周边容易受到挖掘机的野蛮入侵问题. 本文提出了一种结合Yolopose和多层感知机的挖掘机检测与工作状态判别方法. 首先, 设计了基于Yolopose的挖掘机6点姿势的提取网络Yolopose-ex; 其次, 利用Yolopose-ex模型提取视频中挖掘机工作姿态的变化信息, 构建了挖掘机的工作状态特征向量(MSV); 最后, 利用深度学习算法多层感知机(multilayer perceptron, MLP)分析了视频中的挖掘机的工作状态. 实验结果表明, 所提出的方法克服了复杂背景难以识别的问题, 对挖掘机工作状态识别准确率达到了96.6%, 具有较高的推理速度和泛化能力.