2025, 34(3):1-13. DOI: 10.15888/j.cnki.csa.009796 CSTR: 32024.14.csa.009796
摘要:基于点云的三维物体识别和检测是计算机视觉和自主导航领域的一个重要研究课题. 如今, 深度学习算法大大提高了三维点云分类的准确性和鲁棒性. 然而, 深度学习网络通常存在网络结构复杂、训练过程耗时等问题. 本文提出了一种三维点云分类网络Point-GBLS, 它将深度学习和宽度学习系统结合在一起. 网络结构简单, 训练时间短. 首先通过基于深度学习的特征提取网络提取点云特征, 然后用改进的宽度学习系统对其进行分类. ModelNet40和ScanObjectNN数据集上的实验表明, Point-GBLS识别准确率分别达到92%以上和78%以上, 训练时间低于同类深度学习方法的50%以上, 优于具有相同骨干的深度学习网络.
2025, 34(3):14-26. DOI: 10.15888/j.cnki.csa.009792 CSTR: 32024.14.csa.009792
摘要:联邦学习是一种分布式机器学习技术, 允许参与方在本地训练模型并上传更新至中央服务器, 由中央服务器聚合更新来生成更优的全局模型, 从而保障数据隐私和解决数据孤岛问题. 然而, 梯度聚合过程依赖中央服务器, 这可能导致单点故障, 且中央服务器也是潜在的恶意攻击者. 因此, 联邦学习必须去中心化. 现有的去中心化方案没有考虑外部敌手和数据通信带来的性能瓶颈问题. 为了解决上述问题, 提出一种考虑外部敌手的去中心化联邦学习方法. 该方法应用Shamir秘密共享方案, 将模型更新分成多个份额, 保护梯度隐私. 该方法提出一种洪泛共识协议, 每轮随机选取某一参与方作为中央服务器完成全局聚合, 高效实现联邦学习的去中心化. 同时, 该方法引入BLS聚合签名, 防范外部敌手攻击, 提升验证效率. 理论分析和实验结果表明, 该方法是安全高效的, 相比同类联邦学习方法具有更高的效率.
2025, 34(3):27-39. DOI: 10.15888/j.cnki.csa.009775 CSTR: 32024.14.csa.009775
摘要:在低光照图像增强的研究中, 虽然现有技术在提升图像亮度方面取得了进展, 但细节恢复不足和颜色失真等问题仍然存在. 为了解决这些问题, 本文提出一种基于Retinex理论具有双重注意力的Transformer增强网络——DARFormer. 该网络由光照估计网络和损坏修复网络两部分组成, 旨在提升低光照图像的亮度, 同时保留更多的细节并防止颜色失真. 光照估计网络是基于图像先验来估计亮度映射项, 用于低光照图像亮度增强; 损坏修复网络则优化亮度增强后的图像质量, 采用具有空间注意力和通道注意力的Transformer架构. 在LOL_v1、LOL_v2和SID公开数据集上进行实验表明: 与主流的增强方法相比, DARFormer在定量和定性指标上取得了更好的增强结果.
2025, 34(3):40-50. DOI: 10.15888/j.cnki.csa.009830 CSTR: 32024.14.csa.009830
摘要:为了提升音频驱动人体动画生成的真实性, 对UnifiedGesture模型进行了改进研究. 首先, 通过引入编码器-解码器架构, 从音频中提取面部特征, 以弥补原模型在面部表情生成方面的不足. 其次, 结合交叉局部注意力机制和基于Transformer-XL的多头注意力机制, 以增强长序列中的时序依赖性. 同时, 利用变分量化自动编码器 (vector quantized variational autoencoder, VQVAE), 融合生成全身运动序列, 以提升生成动作的多样性和完整性. 最后, 在BEAT数据集上进行实验, 通过定量和定性分析结果表明, 改进后的UnifiedGesture-F模型在音频与人体动作同步性和整体真实感方面相比原模型有显著提升.
2025, 34(3):51-61. DOI: 10.15888/j.cnki.csa.009784 CSTR: 32024.14.csa.009784
摘要:面对视频质量评估领域标记数据不足的问题, 研究者开始转向自监督学习方法, 旨在借助大量未标记数据来学习视频质量评估模型. 然而现有自监督学习方法主要聚焦于视频的失真类型和视频内容信息, 忽略了视频随时间变化的动态信息和时空特征, 这导致在复杂动态场景下的评估效果不尽人意. 针对上述问题, 提出了一种新的自监督学习方法, 通过播放速度预测作为预训练的辅助任务, 使模型能更好地捕捉视频的动态变化和时空特征, 并结合失真类型预测和对比学习, 增强模型对视频质量差异的敏感性学习. 同时, 为了更全面捕捉视频的时空特征, 进一步设计了多尺度时空特征提取模块等以加强模型的时空建模能力. 实验结果显示, 所提方法在LIVE、CSIQ以及LIVE-VQC数据集上, 性能显著优于现有的基于自监督学习的方法, 在LIVE-VQC数据集上, 本方法在PLCC指标上平均提升7.90%, 最高提升17.70%. 同样, 在KoNViD-1k数据集上也展现了相当的竞争力. 这些结果表明, 本文提出的自监督学习框架有效增强视频质量评估模型的动态特征捕捉能力, 并在处理复杂动态视频中显示出独特优势.
2025, 34(3):62-71. DOI: 10.15888/j.cnki.csa.009810 CSTR: 32024.14.csa.009810
摘要:可解释推荐算法利用行为信息和其他相关信息不仅生成推荐结果而且提供推荐理由, 从而增加推荐的透明度和可信度. 传统的可解释推荐算法往往局限于分析评分数据和文本数据, 对图像这类数据利用并不充分, 且并没有很好地考虑模态间的有效融合方式, 难以充分挖掘不同模态之间的内在关联. 针对上述问题, 提出一种融合多模态特征的可解释推荐模型, 该模型采用特征融合技术, 从多模态角度提高推荐解释的质量与个性化. 首先, 设计多模态特征提取方法, 基于CLIP图像编码器和文本编码器分别提取用户和物品的文本特征和图像特征. 其次, 采用交叉注意力技术实现文本和图像的跨模态融合, 增强模态间的语义相关性. 最后, 将多模态信息与交互信息结合, 联合优化模态对齐、评分预测与解释生成任务. 实验结果表明, 所提出的方法在3个多模态推荐数据集上都表现出了明显优势, 尤其在提升解释质量方面.
2025, 34(3):72-84. DOI: 10.15888/j.cnki.csa.009800 CSTR: 32024.14.csa.009800
摘要:面对复杂的海洋环境, 利用舰船辐射噪声进行水声目标特征提取与识别具有极大的挑战性. 本文首先将船舶音频信号的三维梅尔频率倒谱系数(3D dynamic Mel-frequency cepstrum coefficient, 3D-MFCC)特征与三维梅尔谱(3D dynamic Mel-spectrogram, 3D-Mel)特征进行融合作为模型输入, 并基于此提出了一种新的水声目标识别深度神经网络模型, 该模型在卷积神经网络(convolutional neural network, CNN)和长短期记忆网络(long short-term memory, LSTM)的串行架构基础上, 用多尺度深度可分离卷积网络(multi-scale depthwise convolutional network, MSDC), 替代了传统的CNN, 并增加了多尺度通道注意力机制(multi-scale channel attention, MSCA). 实验结果表明, 该方法在DeepShip数据集和ShipsEar数据集上的平均识别率分别达到了85.92%和97.32%, 展现了良好的分类效果.
2025, 34(3):85-93. DOI: 10.15888/j.cnki.csa.009821 CSTR: 32024.14.csa.009821
摘要:针对车联网中拒绝服务 (denial of service, DoS)攻击难以防范且现有监督学习方法无法有效检测零日攻击的问题, 提出了一种混合DoS攻击入侵检测系统. 首先, 对数据集进行预处理, 提高数据的质量; 其次, 利用特征选择滤除冗余特征, 旨在获得代表性更强的特征; 再次, 采用集成学习方法将5种基于树结构的监督分类器堆叠集成用于检测已知DoS攻击; 最后, 提出了一种无监督异常检测方法, 将卷积去噪自动编码器与注意力机制相结合来建立正常行为模型, 用于检测堆叠集成模型漏报的未知DoS攻击. 实验结果表明, 对于已知DoS攻击检测, 所提系统在Car-Hacking数据集和CICIDS2017数据集上的检测准确率分别为100%和99.967%; 对于未知DoS攻击检测, 所提系统在上述两个数据集上的检测准确率分别为100%和83.953%, 并且在两个数据集上的平均测试时间分别为0.072 ms和0.157 ms, 验证了所提系统的有效性和可行性.
2025, 34(3):94-104. DOI: 10.15888/j.cnki.csa.009801 CSTR: 32024.14.csa.009801
摘要:地铁系统作为城市交通的核心组成部分, 安全性与效率的提升对于保障乘客的生命财产安全具有重要意义. 行人闯门行为不仅会导致设备损坏和交通延误, 更可能对其他乘客的安全构成威胁. 因此, 准确检测和识别地铁场景下的行人闯门行为成为智能交通管理中的一项重要任务. 本文提出一种行人闯门威胁检测算法. 该算法首先在RAFT光流法的特征提取器中使用移动网络卷积模块, 并添加ECA通道注意力机制, 同时在相关体构建块中使用3D结构并缩减领域半径, 以期降低模型参数量的同时提升检测速度. 实验结果表明, 该算法对行人检测的平均端点误差为0.79, 检测速度可达到55.98 f/s, 模型参数量降低了35.3%. 为获取乘客闯门威胁值, 本文使用改进光流法计算出相邻图片帧的运动信息, 结合本文提出的闯门威胁计算公式得到当前图片帧乘客的闯门威胁值. 该方法满足了实时性、准确度和轻量化的同时还可以有效部署, 更好地满足了站内大客流的行人威胁检测和应急管理的工程实践要求.
2025, 34(3):105-114. DOI: 10.15888/j.cnki.csa.009787 CSTR: 32024.14.csa.009787
摘要:针对现行即插即用图像修复方法无法处理弱光图像增强等盲图像修复任务中图像退化模型难以精确建模的问题, 本文构造了一种将即插即用分裂算法与引导扩散模型相结合的求解方案. 该方案巧妙地避免了直接求解由复杂退化模型导致的复杂数据子问题, 转而使用真实退化图像来解决数据子问题, 并利用数据子问题的解作为“锚点”间接约束并优化先验子问题的求解过程. 从而确保了图像修复结果能够更紧密地贴近真实的图像恢复目标. 本方法在多个公开数据集上进行验证, 结果表明, 所提算法与现行具有代表性的方法相比, PSNR和SSIM分别平均提升4.89%和9.48%. 实验证明, 所提方法在修复指标上表现更好, 验证了本方法的有效性.
2025, 34(3):115-123. DOI: 10.15888/j.cnki.csa.009797 CSTR: 32024.14.csa.009797
摘要:为解决结肠息肉图像语义分割任务中存在的边界不清晰以及分割结果不连贯、不完整甚至丢失的问题, 提出一种基于多尺度特征和上下文聚合的结肠息肉图像分割网络 (colon polyp image segmentation network based on multi-scale features and contextual aggregation, MFCA-Net). 网络选择PvTv2作为特征提取主干网络, 设计多尺度特征互补模块 (MFCM)用以提取丰富的多尺度局部信息, 减少息肉形态变化对分割结果的影响; 设计全局信息增强模块 (GIEM), 构建嵌入位置注意力的大核深度卷积实现对息肉的精确定位, 提升网络辨别复杂背景的能力; 设计高级语义引导的上下文聚合模块 (HSCAM), 以全局特征引导局部特征, 差异性互补和交叉融合浅层细节信息与深层语义信息, 提升分割的连贯性和完整性; 设计边界感知模块 (BPM), 结合传统图像处理方法与深度学习方法优化边界特征, 实现细粒度分割, 进而获取更清晰的边界. 实验表明, 在Kvasir、ClinicDB、ColonDB和ETIS等公开的结肠息肉图像数据集上, 所提出的网络均取得相较于当前主流算法更高的mDice与mIoU分数, 具有更高的分割准确率和更强的鲁棒性.
2025, 34(3):124-132. DOI: 10.15888/j.cnki.csa.009794 CSTR: 32024.14.csa.009794
摘要:针对现有的方法通常面临全局感受野和高效计算之间难以有效平衡以及重建图像细节不清晰的问题, 提出了基于CNN-Mamba的属性引导网络(CMANet). 首先, 模型在进行重建时, 引入了属性信息并且考虑了这些属性之间的相互关系, 帮助模型提高整个重建过程的可靠性和精确度. 其次, 引入了沙漏状态空间模块, 发掘人脸图像的关键特征, 并保持了在长距离依赖建模方面具有线性复杂度的优势. 最后, 引入了自适应Mamba融合模块, 在图像特征学习多个方向长距离依赖关系时, 将属性针对不同方向进行自适应补充, 并将不同方向补充后的特征进行自适应融合, 使得模型在处理多样化的图像时更加灵活和高效. 大量的实验证明了所提方法的优越性.
2025, 34(3):133-142. DOI: 10.15888/j.cnki.csa.009785 CSTR: 32024.14.csa.009785
摘要:视音频事件定位(audio-visual event localization, AVEL)任务通过观察音频信息和相对应的视觉信息来定位视频中的事件. 本文针对AVEL任务设计了一种跨模态时间对齐网络CMTAN, 该网络包含预处理、跨模态交互、时间对齐和特征融合这4个部分. 具体而言, 在预处理部分, 通过一种新的跨模态音频指导模块和一种噪音弱化模块的处理, 模态信息中的背景和噪音被减少. 随后, 在跨模态交互部分, 使用基于多头注意力机制的信息强化和信息补充模块进行跨模态交互, 单模态信息得到全局信息优化. 在时间对齐部分, 本文设计了一种聚焦于跨模态交互前后单模态全局信息的时间对齐模块, 用于执行模态信息的特征对齐. 最后, 在特征融合过程中, 通过一种多阶段融合模块, 两种模态信息被从浅入深地融合, 且融合后的模态信息最终将被用于事件定位. 大量实验表明CMTAN在弱监督和全监督AVEL任务中都具有优秀的性能.
2025, 34(3):143-151. DOI: 10.15888/j.cnki.csa.009829 CSTR: 32024.14.csa.009829
摘要:基于Transformer方法凭借自注意力机制在图像超分辨率重建领域中展现出卓越的性能, 然而自注意力机制也带来了非常高的计算成本, 针对此问题提出一种基于混合泛化Transformer的轻量化图像超分辨率重建模型. 该模型建立在SwinIR网络架构的基础上, 首先, 采用矩形窗口自注意机制(RWSA), 利用不同头部的水平和垂直矩形窗口代替传统的正方形窗口模式, 整合跨越不同窗口的特征. 其次, 引用递归泛化自注意力机制(RGSA)将输入特征递归地聚合到具有代表性的特征映射中, 然后利用交叉注意力来提取全局信息, 同时将RWSA和RGSA交替结合, 以更有效地利用全局上下文信息. 最后, 为了激活更多的像素以获得更好的恢复, 使用通道注意力机制和自注意力机制并联地对输入图像进行特征提取. 在5种基准数据集的测试结果表明, 该模型在保持模型参数轻量化的同时取得了更好的重建性能.
2025, 34(3):152-160. DOI: 10.15888/j.cnki.csa.009831 CSTR: 32024.14.csa.009831
摘要:TensorGCN模型是图神经网络应用在文本分类领域的SOTA模型之一. 然而在处理文本语义信息方面, 该模型使用的LSTM难以完全地提取短文本语义特征, 且对复杂的语义处理效果不佳; 同时, 由于长文本中包含的语义及句法特征较多, 在进行图间异构信息共享时特征共享不完全, 影响文本分类的准确性. 针对这两个问题, 对TensorGCN模型进行改进, 提出融合BERT和自注意力机制的张量图卷积网络 (BTSGCN)文本分类方法. 首先, 使用BERT代替TensorGCN架构中的LSTM模块进行语义特征提取, 通过考虑给定单词两侧的周围单词来捕获单词之间的依赖关系, 更准确地提取短文本语义特征; 然后, 在图间传播时加入自注意力机制, 帮助模型更好地捕捉不同图之间的特征, 完成特征融合. 在MR、R8、R52和20NG这4个数据集上的实验结果表明BTSGCN相比于其他对比方法的分类准确度更高.
2025, 34(3):161-170. DOI: 10.15888/j.cnki.csa.009823 CSTR: 32024.14.csa.009823
摘要:目前, 大多数多模态可解释假新闻检测方法忽视了对解释数据和跨模态特征的进一步研究利用, 导致可解释假新闻检测方法, 虽然对模型的决策做出了解释, 但是模型检测性能并没有优于先进的多模态检测方法. 针对这些问题, 提出了一种迭代的可解释多模态假新闻检测框架. 该方法由主模型和解释模块构成, 二者都接收多模态新闻作为输入. 首先, 解释模块中将DeepLIFT解释算法计算出的解释数据也作为主模型的输入之一, 参与到主模型的决策过程. 接着, 主模型中通过多任务网络框架计算出跨模态相关特征和跨模态补充特征, 并通过跨模态相关特征的粗预测分数对跨模态补充特征重新加权进行细化, 多种特征拼接起来进行模型决策. 最后, 解释模块利用知识蒸馏从主模型转移决策知识进行训练. 主模型和解释模块交替训练, 整体构成了迭代的框架, 在提供决策解释的同时, 进一步提升模型检测性能. 在两个公开的假新闻检测数据集上进行大量实验, 实验结果证明所提出的方法优于最先进的多模态假新闻检测方法.
2025, 34(3):171-179. DOI: 10.15888/j.cnki.csa.009795 CSTR: 32024.14.csa.009795
摘要:针对遥感图像目标检测中的复杂背景干扰, 目标密集堆积导致遥感图像目标检测模型效果差的问题, 通过对YOLOv5s目标检测模型进行改进. 首先使用混合注意力机制对CBAM (convolutional block attention module)加以改进并添加至骨干网络中, 使得模型所提取到的特征含有局部信息和全局信息, 以加强模型识别复杂背景下目标的能力; 其次使用超轻量级的动态上采样器DySample结构, 减少模型参数并提高检测效率, 最后使用EIoU损失函数提高对于待检测目标的定位水平. 在RSOD和DIOR数据集上进行了实验验证, 结果表明, 改进后的YOLOv5s在遥感图像目标检测中的准确度要比原始模型高7.8%, 同时能够满足遥感图像实时目标检测的需求; 此外与其他目标检测模型相比, 改进模型也能保有一定优势.
2025, 34(3):180-188. DOI: 10.15888/j.cnki.csa.009798 CSTR: 32024.14.csa.009798
摘要:岩心图像作为地质、油气等行业中极为重要的数字图像资源, 对于科学研究和工程实践至关重要, 其安全性常通过添加数字水印的方式来保障. 在数字化的进程中, 岩心图像在存储、传输和网页发布等情况下常会进行JPEG压缩. 然而, 现存基于深度学习的图像数字水印算法在应对JPEG压缩时, 视觉质量和鲁棒性方面仍存在显著不足. 本文提出了一个端到端图像鲁棒水印算法, 旨在解决JPEG压缩条件下岩心图像的鲁棒水印嵌入问题. 为高效融合载体图像与水印的特征, 本文引入了多尺度跨时空注意力(pyramid efficient multi-scale attention, PEMA)模块, 该模块通过独特的跨空间交互策略和通道间关系的构建方式, 能够有效捕获不同方向上的长程依赖以及不同尺度下的特征信息. 为了实现视觉不可感知性, 本文通过离散小波变换(discrete wavelet transform, DWT)将数字水印嵌入到载体图像的低频分量中, 并引入DLL (DWT LL sub-band loss)损失函数, 以提升水印图像的视觉质量. 实验结果表明, 该算法在针对JPEG压缩的鲁棒性和视觉不可感知性上均优于现有主流算法.
2025, 34(3):189-200. DOI: 10.15888/j.cnki.csa.009786 CSTR: 32024.14.csa.009786
摘要:地物分类是遥感图像领域的重要研究方向, 近年来高光谱图像和激光雷达数据联合分类的技术备受关注. 现有的深度学习模型的分类性能显著依赖于标注样本的丰富度及优质程度, 这在实际应用中常构成重大挑战. 此外, 很多模型未能有效地利用高光谱图像和激光雷达数据的信息互补性. 针对上述问题, 本文提出了一种跨模态通道权重调整的半监督双分支分类网络, 通过注意力机制, 深入剖析两种数据通道之间的相似度, 并据此自适应地调整各通道的权重. 同时, 本文结合一致性正则化与伪标签的半监督方法, 有效地利用了未标记样本的信息. 在针对Houston和MUUFL这两个标志性的联合数据集进行高光谱图像与激光雷达数据联合分类的实验中, 所提方法展现出相较于现有分类模型的显著优势, 有效提高了分类精度与效率.
2025, 34(3):201-209. DOI: 10.15888/j.cnki.csa.009789 CSTR: 32024.14.csa.009789
摘要:数字水印算法因其在版权保护、内容认证、数据隐藏等领域的重要应用价值而受到广泛关注. 在实际应用中, 嵌入水印的图像往往会遭受图像扭曲、锐化模糊等可微噪声的影响, 同时也会面临JPEG压缩、传输错误等不可微噪声的干扰. 现有研究多集中于单一噪声环境下的方案设计, 或者尝试使用可导模型来近似模拟不可微噪声, 这些方法在一定程度上限制了水印算法的鲁棒性. 针对这一问题, 本文提出了一种基于可逆神经网络的端到端单阶段数字水印方案. 该方案利用可逆神经网络模拟不可微噪声, 提高了算法对于实际噪声环境的适应性和鲁棒性. 与现有算法相比, 本算法在多噪声叠加情况下峰值信噪比(PSNR)提高了3.12 dB, 平均提取精度(ACC)提高了35.36%.
2025, 34(3):210-219. DOI: 10.15888/j.cnki.csa.009777 CSTR: 32024.14.csa.009777
摘要:针对人群计数面临的人头尺寸不统一、人群密度分布不均匀、背景复杂干扰等问题, 提出一种解决多尺度变化加强关注人群区域的卷积神经网络模型 (multi-scale feature weighted fusion attention convolutional neural network, MSFANet). 该网络前端采用改进的VGG-16模型对输入人群图像做第1步的粗粒度特征提取, 中间加入多尺度特征提取模块提取图像的多尺度特征信息. 随后添加注意力模块对多尺度特征进行特征加权. 后端利用锯齿状空洞卷积模块增大感受野, 以提取图像的细节特征, 生成高质量的人群密度图. 对该模型在3个公开数据集上进行实验, 结果显示, 在Shanghai Tech Part B数据集上MAE (平均绝对误差)达到7.8, MSE (均方误差)达到12.5. 在Shanghai Tech Part A数据集上MAE达到64.9, MSE达到108.4. 在UCF_CC_50数据集上MAE达到185.1, MSE达到249.8. 实验结果证实该模型有较好的准确度和鲁棒性.
2025, 34(3):220-228. DOI: 10.15888/j.cnki.csa.009791 CSTR: 32024.14.csa.009791
摘要:矩阵分解模型是推荐系统中的经典模型之一, 可用来预测用户对物品的评分, 进而对用户进行推荐, 改善用户体验. 当前的矩阵分解模型无法有效提取用户之间的局部相似关系, 导致评分预测效果不佳, 且存在冷启动问题. 社交网络的发展使得用户之间的信任关系成为推荐系统的重要研究工具, 因此本文提出基于用户信任关系的局部贝叶斯概率矩阵分解模型(TLBPMF)用于评分预测, 结合用户的信任关系信息对用户的评分进行研究, 识别出具有相似偏好的用户群体并进行聚类, 根据聚类结果获取评分子矩阵, 对每个子矩阵分别建立概率矩阵分解模型, 深入挖掘用户之间的局部相似关系, 利用吉布斯抽样算法进行参数估计. 选择电影网站的评分数据集进行实验, 结果表明该模型在预测精度上优于基准模型, 并且在冷启动用户上比基准模型有更优越的表现.
2025, 34(3):229-238. DOI: 10.15888/j.cnki.csa.009790 CSTR: 32024.14.csa.009790
摘要:针对汽车涂胶图像边缘提取过程中, 由于生产工厂环境复杂、光线不均匀而产生噪声、伪边缘干扰的问题, 提出一种改进Canny算子的汽车涂胶图像边缘提取算法. 首先, 算法采用多级中值有理混合滤波和导向滤波的级联滤波器对图像进行去噪和平滑, 在降噪的同时保留目标边缘信息; 其次应用改进Sobel算子卷积模板, 从水平、垂直、45°、135°这4个方向提取梯度向量, 提高边缘定位精度; 最后在边缘连接阶段, 采用改进的最大类间方差法(Otsu)选择高低阈值, 增加算法的自适应性. 实验结果表明, 在图像降噪方面, 与传统的中值滤波相比, 该算法保证降噪后的图像的峰值信噪比高于35 dB, 结构相似度大于0.9, 整体峰值信噪比提升了6%以上, 结构相似度提高6.5%以上; 在边缘提取方面, 能够很好地减少伪边缘的干扰, 边缘连接程度较高.
2025, 34(3):239-247. DOI: 10.15888/j.cnki.csa.009776 CSTR: 32024.14.csa.009776
摘要:随着信息技术的发展, 诸如借助翻译工具的回译式抄袭行为越发复杂隐蔽, 对抄袭检测方法提出了更高的要求. 为此, 提出一种基于提示工程(prompt engineering)的抄袭检测方法. 该方法通过设计提示词, 引导大语言模型(large language model, LLM)在语义层面关注句子文本中的潜在相似性, 能够有效识别出语义高度相似的内容. 首先, 回顾了现有的抄袭检测技术和提示工程的应用, 在此基础上设计基于提示工程的回译式抄袭行为检测流程. 其次, 设计提示模版, 通过合并缩减待检测句子对的方式, 提出句子压缩比的抄袭检测指标. 最后, 通过实验证明基于提示工程的抄袭检测方法与传统方法相比, 在检测回译式抄袭行为上具有显著优势.
2025, 34(3):248-258. DOI: 10.15888/j.cnki.csa.009788 CSTR: 32024.14.csa.009788
摘要:针对传统人工势场法(artificial potential field, APF)未充分考虑车辆避碰风险分布差异性和陷入局部极值导致路径规划失败的问题, 提出一种基于梯度统计变异量子遗传算法(gradient statistical mutation quantum genetic algorithm, GSM-QGA)的自适应椭圆作用域人工势场法. 在传统斥力场圆形作用域的基础上, 通过分析车辆和障碍物的相对运动状态, 定义斥力势场动态椭圆作用域计算方法; 同时对势场函数影响因素进行分析, 引入速度因素分别完成斥力势场函数和引力势场函数的设计; 将梯度统计变异量子遗传算法作为改进人工势场局部最优修正策略, 当车辆陷入局部极值往复运动时, 基于车辆当前位置构建伪全局地图, 规划可行路径跳出局部极值范围. 仿真实验结果表明, 改进算法规划的路径不仅可以有效避免车辆陷入局部极值, 减少车辆不必要的避障操作, 而且在路径平滑性和路径长度等方面相比于传统APF算法和固定椭圆域APF算法均具有优势, 所规划路径长度分别缩短6.37%和9.14%.
2025, 34(3):259-267. DOI: 10.15888/j.cnki.csa.009824 CSTR: 32024.14.csa.009824
摘要:基于学习的多视图立体匹配算法目前成果显著, 但是仍然存在的卷积感受野受限以及忽略图像频率信息导致在低纹理、重复和非兰伯曲面匹配性能不足的问题, 针对以上问题提出了上下文增强与图像频率引导的多视图立体匹配网络 CAF-MVSNet. 首先, 在特征提取阶段, 将上下文增强模块融合到特征金字塔网络中, 有效地扩大网络的感受野. 然后引入了图像频率引导注意力模块, 通过编码图像的不同频率获取图像的线条、形状、纹理和颜色等信息, 增强图像的远程上下文联系的同时进一步解决低纹理、重复和非兰伯曲面的精确匹配问题, 以实现可靠的特征匹配. 在 DTU 数据集上的实验结果显示, 与经典的级联模型CasMVSNet相比综合误差(overall)提升了12.3%, 展现了优秀的性能. 此外, 在Tanks and Temples数据集上也取得了不错的效果, 展现了良好的泛化性能.
2025, 34(3):268-276. DOI: 10.15888/j.cnki.csa.009803 CSTR: 32024.14.csa.009803
摘要:目前多标签文本分类研究已经整合了标签信息, 但在情感分析领域, 现有方法常忽略了基于情感本身强度和极性的标签相关性, 这些相关性对于精确分类至关重要. 为了解决这些问题, 本文提出了多标签交互和情感图感知的MGE-BERT模型. 该模型首先通过情感强度关联和情感层次关联对情感标签进行优先排序, 然后将排序后的标签与文本数据结合, 作为输入导入BERT模型. 在此过程中, 采用了句法分析技术和情感词典, 通过独特的构图方法构建了复杂的依赖图和情感图. 为了进一步增强标签信息与文本特征的深度融合, 本文将BERT模型的输出作为图卷积网络 (GCN)的输入, 使其能够更精确地捕捉并传递节点间的上下文关系. 实验结果表明, 在SemEval2018 Task-1C数据集和GoEmotions数据集上进行的实验中, 本文提出的MGE-BERT模型相比于最先进的模型, Macro-F1得分分别提高了1.6%和2.0%.
2025, 34(3):277-285. DOI: 10.15888/j.cnki.csa.009793 CSTR: 32024.14.csa.009793
摘要:为了解决现有反射消除算法在处理复杂场景时导致的图像质量下降问题, 本文提出了一种具有颜色感知的双通道反射消除算法. 首先, 设计了背景颜色生成器, 以准确预测图像的背景颜色信息, 为基础反射消除网络提供背景支持, 生成初步的反射消除结果. 接着, 提出了双通道反射消除网络, 对初步结果进行进一步的优化. 此外, 该算法在双通道反射消除网络中设计了稀疏Transformer模块、通道注意力模块以及特征融合模块, 从而提升了反射消除的精度和效果. 实验结果表明, 该方法在RRID和Flash数据集上表现出色, 能够有效去除反射光并显著提升图像的真实感.
2025, 34(3):286-295. DOI: 10.15888/j.cnki.csa.009783 CSTR: 32024.14.csa.009783
摘要:遥感高光谱图像超分辨率(remote sensing hyperspectral image single super-resolution, HSISR)任务近年来已取得可观进展, 其中使用深度卷积神经网络(convolutional neural network, CNN)技术的方法得到广泛运用. 然而, 大多数基于CNN的超分辨模型往往会忽略遥感高光谱图像的光谱结构, 同时由于卷积网络受卷积核大小限制, 长距离的特征依赖关系被忽略, 进而影响了重建的精度. 为了解决这些问题, 本文提出了一个基于分组ConvLSTM和Transformer的双分支遥感高光谱图像超分辨率网络(dual-branch remote sensing hyperspectral image super-resolution network based on grouped ConvLSTM and Transformer, DGCTNet), 该方法结合了Transformer捕捉长距离依赖关系和卷积长短时记忆网络(ConvLSTM)对提取序列性特征的优势, 在提取空间特征的同时保持了光谱的有序性, 增强了重建图像的效果. 此外, DGCTNet还设计了边缘学习网络, 将边缘信息扩散到图像空间中. 同时为重新校准光谱响应, 加入提出的双组级通道注意力机制(dual-group level channel self-attention, DSA). 在Houston数据集上的实验表明, DGCTNet方法在定量评价指标和多种场景下的视觉质量上, 都优于当前最先进的对比模型.