• 当期目录
  • 优先出版
  • 过刊浏览
  • 点击排行
  • 下载排行
  • 综述文章
    快速检索
    过刊检索
    全选反选导出
    显示模式:
    2025,34(3):1-13, DOI: 10.15888/j.cnki.csa.009796, CSTR: 32024.14.csa.009796
    [摘要] (157) [HTML] (48) [PDF 2.09 M] (702)
    摘要:
    基于点云的三维物体识别和检测是计算机视觉和自主导航领域的一个重要研究课题. 如今, 深度学习算法大大提高了三维点云分类的准确性和鲁棒性. 然而, 深度学习网络通常存在网络结构复杂、训练过程耗时等问题. 本文提出了一种三维点云分类网络Point-GBLS, 它将深度学习和宽度学习系统结合在一起. 网络结构简单, 训练时间短. 首先通过基于深度学习的特征提取网络提取点云特征, 然后用改进的宽度学习系统对其进行分类. ModelNet40和ScanObjectNN数据集上的实验表明, Point-GBLS识别准确率分别达到92%以上和78%以上, 训练时间低于同类深度学习方法的50%以上, 优于具有相同骨干的深度学习网络.
    2025,34(3):14-26, DOI: 10.15888/j.cnki.csa.009792, CSTR: 32024.14.csa.009792
    [摘要] (73) [HTML] (57) [PDF 6.23 M] (1055)
    摘要:
    联邦学习是一种分布式机器学习技术, 允许参与方在本地训练模型并上传更新至中央服务器, 由中央服务器聚合更新来生成更优的全局模型, 从而保障数据隐私和解决数据孤岛问题. 然而, 梯度聚合过程依赖中央服务器, 这可能导致单点故障, 且中央服务器也是潜在的恶意攻击者. 因此, 联邦学习必须去中心化. 现有的去中心化方案没有考虑外部敌手和数据通信带来的性能瓶颈问题. 为了解决上述问题, 提出一种考虑外部敌手的去中心化联邦学习方法. 该方法应用Shamir秘密共享方案, 将模型更新分成多个份额, 保护梯度隐私. 该方法提出一种洪泛共识协议, 每轮随机选取某一参与方作为中央服务器完成全局聚合, 高效实现联邦学习的去中心化. 同时, 该方法引入BLS聚合签名, 防范外部敌手攻击, 提升验证效率. 理论分析和实验结果表明, 该方法是安全高效的, 相比同类联邦学习方法具有更高的效率.
    2025,34(3):27-39, DOI: 10.15888/j.cnki.csa.009775, CSTR: 32024.14.csa.009775
    [摘要] (97) [HTML] (55) [PDF 4.38 M] (903)
    摘要:
    在低光照图像增强的研究中, 虽然现有技术在提升图像亮度方面取得了进展, 但细节恢复不足和颜色失真等问题仍然存在. 为了解决这些问题, 本文提出一种基于Retinex理论具有双重注意力的Transformer增强网络——DARFormer. 该网络由光照估计网络和损坏修复网络两部分组成, 旨在提升低光照图像的亮度, 同时保留更多的细节并防止颜色失真. 光照估计网络是基于图像先验来估计亮度映射项, 用于低光照图像亮度增强; 损坏修复网络则优化亮度增强后的图像质量, 采用具有空间注意力和通道注意力的Transformer架构. 在LOL_v1、LOL_v2和SID公开数据集上进行实验表明: 与主流的增强方法相比, DARFormer在定量和定性指标上取得了更好的增强结果.
    2025,34(3):40-50, DOI: 10.15888/j.cnki.csa.009830, CSTR: 32024.14.csa.009830
    [摘要] (60) [HTML] (41) [PDF 2.31 M] (739)
    摘要:
    为了提升音频驱动人体动画生成的真实性, 对UnifiedGesture模型进行了改进研究. 首先, 通过引入编码器-解码器架构, 从音频中提取面部特征, 以弥补原模型在面部表情生成方面的不足. 其次, 结合交叉局部注意力机制和基于Transformer-XL的多头注意力机制, 以增强长序列中的时序依赖性. 同时, 利用变分量化自动编码器 (vector quantized variational autoencoder, VQVAE), 融合生成全身运动序列, 以提升生成动作的多样性和完整性. 最后, 在BEAT数据集上进行实验, 通过定量和定性分析结果表明, 改进后的UnifiedGesture-F模型在音频与人体动作同步性和整体真实感方面相比原模型有显著提升.
    2025,34(3):51-61, DOI: 10.15888/j.cnki.csa.009784, CSTR: 32024.14.csa.009784
    [摘要] (107) [HTML] (36) [PDF 2.34 M] (982)
    摘要:
    面对视频质量评估领域标记数据不足的问题, 研究者开始转向自监督学习方法, 旨在借助大量未标记数据来学习视频质量评估模型. 然而现有自监督学习方法主要聚焦于视频的失真类型和视频内容信息, 忽略了视频随时间变化的动态信息和时空特征, 这导致在复杂动态场景下的评估效果不尽人意. 针对上述问题, 提出了一种新的自监督学习方法, 通过播放速度预测作为预训练的辅助任务, 使模型能更好地捕捉视频的动态变化和时空特征, 并结合失真类型预测和对比学习, 增强模型对视频质量差异的敏感性学习. 同时, 为了更全面捕捉视频的时空特征, 进一步设计了多尺度时空特征提取模块等以加强模型的时空建模能力. 实验结果显示, 所提方法在LIVE、CSIQ以及LIVE-VQC数据集上, 性能显著优于现有的基于自监督学习的方法, 在LIVE-VQC数据集上, 本方法在PLCC指标上平均提升7.90%, 最高提升17.70%. 同样, 在KoNViD-1k数据集上也展现了相当的竞争力. 这些结果表明, 本文提出的自监督学习框架有效增强视频质量评估模型的动态特征捕捉能力, 并在处理复杂动态视频中显示出独特优势.
    2025,34(3):62-71, DOI: 10.15888/j.cnki.csa.009810, CSTR: 32024.14.csa.009810
    [摘要] (121) [HTML] (46) [PDF 1.28 M] (810)
    摘要:
    可解释推荐算法利用行为信息和其他相关信息不仅生成推荐结果而且提供推荐理由, 从而增加推荐的透明度和可信度. 传统的可解释推荐算法往往局限于分析评分数据和文本数据, 对图像这类数据利用并不充分, 且并没有很好地考虑模态间的有效融合方式, 难以充分挖掘不同模态之间的内在关联. 针对上述问题, 提出一种融合多模态特征的可解释推荐模型, 该模型采用特征融合技术, 从多模态角度提高推荐解释的质量与个性化. 首先, 设计多模态特征提取方法, 基于CLIP图像编码器和文本编码器分别提取用户和物品的文本特征和图像特征. 其次, 采用交叉注意力技术实现文本和图像的跨模态融合, 增强模态间的语义相关性. 最后, 将多模态信息与交互信息结合, 联合优化模态对齐、评分预测与解释生成任务. 实验结果表明, 所提出的方法在3个多模态推荐数据集上都表现出了明显优势, 尤其在提升解释质量方面.
    快速检索
    过刊检索
    全选反选导出
    显示模式:
    优先出版日期:  2025-03-24 ,DOI: 10.15888/j.cnki.csa.009835
    摘要:
    烟雾检测在早期火灾预警当中非常重要. 现有检测算法基本是基于确定性的卷积神经网络来进行的, 然而确定性的神经网络往往会给出非常自信的预测结果, 即使它完全不知道某些区域当中是否有目标对象, 尤其是烟雾边缘区域有着更加透明的效果, 致使该区域和周围环境极易混淆, 因此检测算法对该区域并不能进行很好的判断, 进而造成大量的假阳性. 因此, 本文提出一种改进的DeepLabV3+算法, 首先, 该算法基于贝叶斯思想优化DeepLabV3+从而输出非确定性的特征编码, 以量化预测图像中不确定性的大小, 校准模型的学习过程. 其次基于预处理思想对特征编码进行预处理, 降低无关干扰特征信息量, 并且强化DeepLabV3+网络中特征融合能力, 充分利用网络提取到的多尺度特征信息. 最后将DeepLabV3+网络中上采样算子优化为CARAFE算子, 降低上采样过程中重要信息的丢失. 模型在公开的SMOKE5K数据集上取得良好的性能, MIoU指标达到了92.41%.
    优先出版日期:  2025-03-24 ,DOI: 10.15888/j.cnki.csa.009844
    摘要:
    在个性化可解释推荐系统中, 用户ID是实现个性化的重要标识符. 现有的算法通常采用encoder-decoder架构来生成个性化可解释的推荐, 然而这种方法增加了算法的复杂性和计算成本, 限制了算法的精度表现. 为了解决这一问题, 本文提出了一个融合自注意力机制和提示学习的个性化可解释推荐算法(PERSP). 该算法通过在BERT的输入层引入提示学习并对其进行微调, 以增强算法的可解释性. 为了克服BERT无法直接使用用户ID进行个性化推荐, 该算法利用自注意力机制将用户ID与其他命令进行拼接, 将拼接后的序列输入到BERT的输入层中进行训练和推理. 为了验证该算法的有效性, 在TripAdvisor、Amazon和Yelp等数据集上进行对比实验. 在TripAdvisor数据集上, PERSP算法相比其他基线算法, RMSE和MAE分别提升了3.7%和4.7%; 在Amazon数据集上, 提升了1.05%和4.1%; 在Yelp数据集上, 提升了1%和2.5%. 结果表明该算法在个性化可解释推荐任务中具有较好的性能表现, 有效提升了推荐系统的准确性和可解释性.
    优先出版日期:  2025-03-24 ,DOI: 10.15888/j.cnki.csa.009845
    摘要:
    离线到在线强化学习中, 虽然智能体能够通过预先收集的离线数据进行初步策略学习, 但在线微调阶段, 早期过程常常表现出不稳定性, 且微调结束后, 性能提升幅度较小. 针对这一问题, 提出了两种关键设计: 1)模拟退火的动态离线-在线缓冲池, 2)模拟退火的行为约束衰减. 第1种设计在训练过程中利用模拟退火思想动态选择离线数据或者在线交互经验, 获得优化的更新策略, 动态平衡在线训练的稳定性和微调性能; 第2种设计通过带降温机制的行为克隆约束, 改善微调早期使用在线经验更新导致的性能突降, 在微调后期逐渐放松约束, 促进模型性能提升. 实验结果表明, 所提出的结合动态缓冲池和时间递减约束的离线到在线强化学习(dynamic replay buffer and time decaying constraints, DRB-TDC)算法在Halfcheetah、Hopper、Walker2d这3个经典MuJoCo测试任务中, 在线微调训练后性能分别提升45%、65%、21%, 所有任务的平均归一化得分比最优基线算法提升10%.
    优先出版日期:  2025-03-24 ,DOI: 10.15888/j.cnki.csa.009841
    摘要:
    对遥感图像进行地表分类对于城市规划、土地利用、环境监测和地表温度反演等工作而言十分重要. 针对相似地表类别存在误检的问题以及遥感图像地表类别不均衡的问题, 本文提出了一种U型Transformer模型U-BiFormer, 该模型在BiFormer的基础上使用U型解码器, 使用所有阶段解码器的输出来预测分割图, 提高了模型捕捉图像中的细节和上下文信息的能力, 使模型能更好分割相似类别. 对U型解码器特有的混合注意力模块进行改进, 增大当前阶段特征在混合特征中所占的比例, 让解码器更注重对当前阶段特征的细化, 提升模型对相似类别的分割效果. 使用CE+Focal混合损失函数替代常规交叉熵损失函数, 应对遥感图像地表类别分布不均的问题. 实验证明在GID大型遥感图像数据集上本文方法能更好地分割相似类别, 并且取得了优于当前主流模型的分割结果(Acc (81.99% )和mIoU (71.04%)).
    优先出版日期:  2025-03-24 ,DOI: 10.15888/j.cnki.csa.009866
    摘要:
    现有基于生成对抗模仿学习(GAIL)的轨迹生成方法多采用马尔可夫决策过程(MDP)建模人类移动规律, 在训练数据有限的情况下, 这些工作难以学习到动作选择与位置间的潜在关系, 并且计算状态转移函数时也没有考虑到位置间的距离约束, 生成的轨迹质量有待提升. 为此, 本文提出了一种基于生成对抗模仿学习的轨迹生成方法, 该方法首先将位置相关的动作分布先验知识融入到生成器中, 帮助模型理解在特定位置上动作的变化模式, 指导模型更好地建模符合真实场景的策略函数. 此外, 将距离约束引入到状态转移函数中, 确保生成轨迹的合理性. 在两个真实数据集上进行了实验, 提出的方法在Rank指标上达到了0.0268, 与最好的基线方法相比提高了39%. 此外, 在下一个位置预测任务中, 预测的准确率比最好的基线高了6%.
    优先出版日期:  2025-03-24 ,DOI: 10.15888/j.cnki.csa.009868
    摘要:
    由于眼底图像背景复杂、毛细血管细小且模糊以及噪声干扰等原因, 传统视网膜血管分割算法容易出现识别不准确和断连等问题. 针对这些问题, 提出一种基于改进U-Net和注意力机制的视网膜血管分割算法(MRAU-Net). 为解决特征提取不充分问题, 设计了多尺度残差卷积模块(MSRCB)来代替U-Net传统的卷积块; 为了减少信息丢失和噪声干扰, 在瓶颈层嵌入双维注意力优化模块(DAOM); 为了减少在编解码过程中造成的信息丢失, 构建了一种新的多尺度密集空洞卷积块(MDCB), 并与传统的跳跃连接相结合. 在DRIVE和CHASE_DB1两个公开数据集上进行了实验, F1-score分别为82.92%、83.75%, AUC分别为98.87%、98.96%, 灵敏度分别为84.50%、83.82%, 准确率分别为97.11%、97.63%. 实验结果表明MRAU-Net较现有优秀算法拥有更优异的性能表现.
    优先出版日期:  2025-03-24 ,DOI: 10.15888/j.cnki.csa.009872
    摘要:
    针对腹部CT图像多器官分割面临的不同器官大小形态不一、相邻器官边界难以确认以及低对比度等挑战问题, 提出一种特征增强的双分支多器官分割模型. 模型总体采取编码器-解码器结构: 编码器采取主/从双分支结构, 主分支使用Mamba捕捉多器官全局依赖信息, 从分支使用CNN逐层提取多器官局部信息, 同时设计级联上下文模块将从分支局部细节特征补充到主分支中; 解码器设计多尺度特征融合模块和深度特征增强模块, 多尺度特征融合模块对跨层级特征信息进行融合, 增强多器官边界分割锐度, 深度特征增强模块应用交叉注意机制提高器官前景与背景的对比度, 减少背景信息对分割的干扰. 在Synapse和ACDC两组公开数据集上的实验结果表明, 与近几年主要基线模型相比, 所提模型的Dice、HD95指标均具有一定的提升.
    优先出版日期:  2025-03-24 ,DOI: 10.15888/j.cnki.csa.009873
    摘要:
    少样本图像分类旨在从有限的标注数据中学习分类器. 尽管现有方法已取得显著进展, 但由于训练样本有限、类内差异过大、类间差异过小, 支持样本与查询样本容易发生混淆, 导致现有方法在提取有用特征和准确区分图像类别方面仍面临挑战. 为了解决这些问题, 我们设计了一种新的多元嵌入增强网络. 该网络轻量且高效, 通过生成一组特征嵌入来表示图像, 而非仅依赖单一的图像级特征. 它能够生成多种层析结构, 从而学习更丰富的特征表示, 减小类内差异并扩大类间差异. 此外, 我们提出了一种基于集合的度量方法, 并结合动态自适应加权机制, 用于衡量查询集和支持集之间的相似度. 实验结果表明, 在miniImageNet、tieredImageNet和CUB数据集上, 模型表现优异. 在使用ResNet-12网络的1-shot设置下, 准确率分别达到了72.22%、75.43%和85.02%, 相较于基准模型分别提升了1.09%、2.93%和1.47%.
    优先出版日期:  2025-03-24 ,DOI: 10.15888/j.cnki.csa.009852
    摘要:
    精确识别组织器官和病变区域是医学影像分析中最重要的任务之一. 在现有的医学影像语义分割研究中, 基于U-Net结构的模型占据了主导地位. TransUNet结合了CNN和Transformer的优势, 弥补了两者在捕捉长程依赖和提取局部特征方面的不足, 但在提取和复原特征的位置时仍不够准确. 针对此问题, 提出了一种多注意力融合机制的医学影像分割模型MAF-TransUNet. 该模型首先在Transformer层之前增加一个多注意力融合模块(MAF)来增强位置信息的表达; 然后在跳跃连接中再次结合多注意模块(MAF)使位置信息能够有效地传递到解码器一侧; 最后在解码阶段使用深度卷积注意力模块(DCA)保留更多的空间信息. 实验结果显示, MAF-TransUNet相较TransUNet在Synapse多器官分割数据集和ACDC自动心脏诊断数据集上的Dice系数分别提升了3.54%和0.88%.
    优先出版日期:  2025-03-24 ,DOI: 10.15888/j.cnki.csa.009853
    摘要:
    当前多数图对比学习驱动的推荐系统模型倾向于依赖单一视图进行训练, 这种做法不可避免地限制了模型对复杂数据特征的全面捕捉能力. 为此, 提出一种融合多视图对比学习和知识图谱的推荐算法MKCLR (multi-view knowledge contrastive learning recommendation). 首先, 使用了3种视图增强方法, 分别是随机边丢弃, 添加均匀噪声扰动和随机游走算法, 为知识图谱和用户-物品图构建3个对比视图; 其次, 通过LightGCN进行编码, 并为之构建多组对比学习任务, 来最大化地提取和利用多视图数据中的丰富信息; 最后, 将主推荐任务与对比学习结合起来进行联合训练, 在MIND, Last-FM和Alibaba-iFashion这3个基准数据集上进行实验, 结果表明, MKCLR在Recall和NDCG这两个评价指标上分别平均提升5.78%和8.68%, 证明了所提方法的有效性.
    优先出版日期:  2025-03-24 ,DOI: 10.15888/j.cnki.csa.009857
    摘要:
    锥形束计算机断层扫描(cone beam computed tomography, CBCT)因其与现代直线加速器系统的集成而被广泛用于图像引导放射治疗. 然而, 由于其图像质量不如CT, 这给实现最佳治疗计划带来了重大挑战. 本研究提出一个名为DDFGAN (dual-domain feature fusion generative adversarial network)的新模型, 旨在改善CBCT图像质量, 使其接近CT水平. 该模型采用双分支架构: 第1分支通过引入RFB模块来提取空间域中的多尺度特征; 第2个分支则设计了一个专门针对CBCT到CT合成的频率域特征提取模块. 通过将这两个分支的特征融合, DDFGAN显著提升了CBCT的成像质量. 此外, 本模型引入几何一致性损失, 将传统的双向生成网络转变为单向生成网络, 这不仅更符合临床应用需求, 还大幅减少了训练时间. 实验结果显示, DDFGAN在生成少伪影的合成CT图像方面优于其他4种比较方法, 且其合成图像的HU值也更接近于CT图像, 显著提高了自适应放射治疗的准确性.
    优先出版日期:  2025-03-07 ,DOI: 10.15888/j.cnki.csa.009860
    摘要:
    多维时间序列数据广泛应用于多个领域, 对其有效的表征对下游分析与挖掘任务至关重要. 传统形态元变换方法通过将单维时间序列投影到形态元空间再行融合的方式进行特征提取, 未考虑不同维度时序间的复杂的耦合关系, 同时形态元长度的限制也妨碍了序列上长程依赖关系的获取. 针对这些问题, 提出了一种耦合维度依赖与长程依赖的多维时序表征方法(CDT-ShapeNet). 该方法中维度信息表征模块通过维度注意力机制捕捉不同维度之间的依赖关系, 而长期信息表征模块则利用注意力机制和长短期记忆网络学习长期时间依赖. 在9个UEA数据集上进行验, 结果显示, 较之于对比方法, 平均准确率提高了6.8%, 验证了其在多维时间序列表征方面的有效性.
    优先出版日期:  2025-03-05 ,DOI: 10.15888/j.cnki.csa.009859
    摘要:
    在知识图谱的整合过程中, 实体对齐 (EA)任务至关重要. 最先进的研究引入了外部知识 (属性文本、时间戳、图像信息等)以及多模态方法, 取得了较高的精度, 但这些方法往往对特定结构有较强的依赖性, 这限制了它们在不同结构知识图谱实体对齐任务中的适用性. 为了解决这一问题, 本文提出了一种通用的知识图谱实体对齐方法, 该方法利用知识图谱共有的实体、关系与图结构等信息工作, 上述部分在知识图谱中可被直接观察到, 因此统称为表层信息. 本文方法包含嵌入生成模块和对齐模块, 其中嵌入模块使用Transformer模型捕捉实体的固有语义及其邻居的贡献, 对齐模块则通过匹配算法实现高性能且稳定的对齐. 实验结果表明, 我们的方法在多个主流知识图谱间的对齐场景中实现了最先进的性能, 展现出稳定和可解释性强的特点. 我们的代码可在https://github.com/zb1tree/TGEA获取.
    优先出版日期:  2025-03-05 ,DOI: 10.15888/j.cnki.csa.009851
    摘要:
    针对麻雀搜索算法SSA求解问题时收敛较快, 容易陷入局部最优解的问题, 本文提出一种融合多策略改进的麻雀搜索算法LCSSA. 首先通过采用非线性递减权重和Levy飞行策略共同改进发现者位置更新公式以提高算法的全局搜索能力与及时跳出局部最优解的能力; 其次, 通过引入柯西变异对跟随者位置更新, 即对最优解进行更新扰动. 本文选取4个对比算法在12个标准基准函数上进行对比实验验证. 实验结果表明, 改进后的算法在收敛速度以及稳定性方面取得了有效性的提升. 将LCSSA应用于疾病预测中, 算法在4种慢性疾病数据集中表现较好, 与对比算法相比具有更高的预测精度.
    优先出版日期:  2025-03-04 ,DOI: 10.15888/j.cnki.csa.009848
    摘要:
    敦煌壁画是人类世界文明史中耀眼的瑰宝. 然而, 现有对敦煌壁画的算法研究主要集中在壁画修复方面, 很少有针对敦煌壁画的色彩风格迁移研究. 因此, 提出一种基于循环生成对抗网络的融合CBAM注意力机制的敦煌壁画风格迁移方法. 通过提取输入图像的特征, 将其输入到添加CBAM注意力机制的生成器中, 应用注意力机制提升重点区域的风格迁移效果, 抑制边界伪影的产生; 为了更好地保留图像内容的结构信息, 在下采样区和上采样区之间添加了残差网络模块; 并且在损失函数中加入色彩损失, 约束模型提高生成图像的风格化效果. 通过自建的敦煌壁画数据集上进行的实验验证, 所提出的模型在敦煌壁画艺术风格迁移任务中展现出了相较于现有方法的优越性. 该模型能够生成视觉效果更为卓越、艺术韵味更为浓厚的敦煌壁画风格化图像, 为敦煌壁画的创新研究提供了新思路.
    优先出版日期:  2025-03-04 ,DOI: 10.15888/j.cnki.csa.009849
    摘要:
    针对岩石CT图像超分辨率重建中纹理和边缘细节恢复不佳, 以及传统Transformer模型资源消耗大的问题, 本文提出了一种轻量级混合架构PDCLT模型. 该模型结合了基于像素差分卷积的细节强化CNN模块和轻量级Transformer模块, 以实现对局部与全局特征的高效提取. 具体而言, 首先提出细节强化模块, 融合了像素差分卷积和残差增强注意力, 并提出了自适应路径权重缩放方法, 以动态调整特征提取路径的权重, 增强了对细微结构和关键特征的捕捉. 其次, 轻量级Transformer模块集成高效多头注意力和多尺度特征融合网络, 在降低GPU内存需求的同时提取全局和多尺度特征. 最后, 在损失函数中加入孔隙度损失以优化孔隙结构的保留. 实验结果显示, PDCLT模型在重建质量和细节还原方面表现出色, 显著提升了岩石CT图像的超分辨率重建质量.
    优先出版日期:  2025-03-04 ,DOI: 10.15888/j.cnki.csa.009850
    摘要:
    在提供精准的用户兴趣推荐时, 推荐系统的数据通常存在稀疏性问题, 对于新上线的项目存在冷启动问题, 缺乏用户交互数据, 为解决上述问题, 提出基于知识图谱的用户兴趣推荐算法. 首先, 在用户潜在兴趣中, 通过多层图神经网络根据用户和项目的嵌入向量, 获取用户和项目直接、间接和更深层次的关系, 解决数据稀疏性问题. 其次, 在用户显式兴趣中, 采用图结构增强根据评分权重随机删除用户和项目之间的显式关系, 通过编码器分析新的用户和项目节点的关系, 挖掘用户与项目间的交互关系, 解决冷启动问题. 最后, 采用特征交叉压缩单元结合知识图谱嵌入与推荐任务实现特征共享, 共享的特征更加深化项目与知识图谱实体间的互动, 提高推荐的准确性. 通过在Book-Crossing和Last.FM两个数据集上进行实验, 结果证明与其他对比算法相比在AUC和ACC评价指标中有显著的提升.
    优先出版日期:  2025-03-04 ,DOI: 10.15888/j.cnki.csa.009832
    摘要:
    肺结节图像的准确分割对于肺癌的早期诊断具有重要意义, 针对肺结节图像尺度多样、边缘模糊导致特征提取不充分和细节信息丢失问题, 本文提出一种融合多尺度特征和双分支并行的肺结节图像分割网络RAVR-UNet. 首先, 针对U-Net网络在编码阶段无法充分提取肺结节特征, 采用双分支并行特征聚合网络提取肺结节图像中的特征信息, 减少特征编码时的信息损失. 其次, 通过引入Agent_ViT模块, 在保持线性计算的基础上, 增强全局信息建模能力. 然后, 为恢复下采样期间丢失的肺结节空间信息, 在解码阶段加入多尺度特征融合模块. 最后, 设计混合损失函数以缓解肺结节图像分割任务中正负样本不平衡问题. 在LIDC-IDRI公开数据集上的实验结果表明, 所提网络的相似系数、交并比分别达到93.15%、87.63%, 优于主流肺结节分割算法且分割结果更接近真实值.
    优先出版日期:  2025-03-04 ,DOI: 10.15888/j.cnki.csa.009838
    摘要:
    针对现有乡村道路图像数据集数据样本少且类别不均衡的问题, 提出了一种基于改进StyleGAN的数据增强方法. 在原有StyleGAN框架基础上引入了解耦映射网络, 以降低W空间隐编码的耦合度; 综合卷积与Transformer的优点, 设计了一个卷积耦合迁移模块(CCTB), 该模块中的核心十字形窗口自注意力机制增强了网络对复杂上下文和空间布局的捕捉能力. 这两项改进使网络性能大幅提升. 通过消融实验对比改进前后的StyleGAN网络, IS指标从42.38提高到了77.31, FID值从25.09降至12.42, 表明了数据生成质量和真实性得到了显著提升. 为了验证数据增强对模型性能的影响, 采用了2种经典且主流的目标检测算法进行测试, 比较了原数据集与增强后数据集的性能差异, 进一步证实了改进措施的有效性.
    优先出版日期:  2025-03-04 ,DOI: 10.15888/j.cnki.csa.009825
    摘要:
    目前, 有多种谎言识别方法, 包括使用测谎仪测谎. 然而这些方法执行起来效果有限, 不仅需要与被测谎对象产生接触, 而且要求相关人员具备专业知识, 不便于实行, 且效果有限. 心理学研究表明, 微表情是人脸上的一种持续时间极其短暂的细微肌肉运动, 能反映人在做出此表情时的真实内心状态. 相关研究表明, 人脸上的微表情特征可以作为谎言识别的线索. 本文研究基于微表情特征的谎言识别, 首先构建一个说谎时的微表情数据集, 命名为MED. 其次, 设计一个基于多层自注意力机制的微表情特征学习模型MEDR, 根据学习到的说谎和未说谎时的微表情特征进行谎言识别. 最后, 本文还在新构建的数据集上, 对本文设计的模型与一些现有模型进行实验对比, 实验结果显示, 本模型在自制高质量数据集上取得94.33%的准确率, 表明本模型在谎言识别方面具备出色的性能.
    优先出版日期:  2025-03-04 ,DOI: 10.15888/j.cnki.csa.009826
    摘要:
    准确的综合能源负荷预测是区域综合能源系统前期规划和后期按需协调运行的关键前提. 近期基于Transformer的方法由于其优秀的全局建模能力, 在长序列预测方面显示了显著潜力. 然而, Transformer中的排列不变自注意力机制导致了时间信息丢失, 且忽视了多能源负荷预测中不同变量之间的关键依赖关系. 为解决上述挑战, 本文提出了一种补丁与变量混合模型 (patch and variable mixing model, PVMM)以实现准确多能源负荷预测. PVMM 采用补丁嵌入技术, 将输入的多能源负荷序列转换为3D向量, 从而保留补丁的时间和变量信息. 其次, 本文提出了基于深度可分离卷积的补丁混合模块 (patch mixing module, PMM)建立时间依赖关系模型. 另外, 本文还提出了变量动态投影注意力模块 (variable dynamic projection attention module, VDP-AM)将查询 (query)和数值 (value)变量映射到更高维空间, 并通过自注意力机制处理多变量之间的相互作用. 最后, 本方法在亚利桑那州立大学公开的在线系统数据集的预测精度和泛化能力均超越现有方法.
    优先出版日期:  2025-03-04 ,DOI: 10.15888/j.cnki.csa.009865
    摘要:
    随着神经辐射场(NeRF)的提出, 其基于神经隐式表示场景的方法在生成高保真地图方面具有显著优势, 将NeRF应用于同时定位与地图构建(SLAM)中, 即基于NeRF的SLAM方法, 能够在实现高精度的定位的同时进行连续的3D建模, 通过渲染新视角并预测未知区域, 提高场景重建的质量和细节. 为了跟踪该领域的最新研究成果, 对近年来基于NeRF的SLAM的关键算法进行了回顾和综述. 首先介绍了NeRF技术的核心原理并全面概述了基于NeRF的SLAM方法的框架, 其次重点探讨了基于NeRF的SLAM的改进和优化, 包括提高神经隐式表征效率、解决大尺度场景建图问题、增加回环和全局优化实现全局一致性和解决动态干扰问题, 最后对基于NeRF的SLAM方法进行了展望, 为相关研究人员提供有价值的参考, 以促进更多创新研究.
    优先出版日期:  2025-02-28 ,DOI: 10.15888/j.cnki.csa.009814
    摘要:
    Linux等大型软件通常利用配置文件来调整系统功能, 当配置项数量较多时, 彼此间依赖关系将变得复杂和容易出错. 若配置依赖约束定义不当, 一定条件下会导致对应配置项即便被选中, 也会由于潜在依赖问题而无法真正生效, 甚至导致系统编译或运行错误. 现有研究主要聚焦于Kconfig文件且仅考虑了反向依赖可能引发的配置错误. 本文则立足于Kconfig和Makefile的全面分析, 并综合研究了前者的直接依赖和反向依赖、二者间依赖不一致以及后者配置项在前者中缺少定义等4种情形, 以期发现尽可能多的潜在问题. 在此基础上, 设计配置错误检测工具, 针对Linux 6.7版内核源码, 检出并确认存在各类配置错误共计52处, 验证了本文方法及原型系统的有效性和实用性.
    优先出版日期:  2025-02-28 ,DOI: 10.15888/j.cnki.csa.009817
    摘要:
    为提高计算流体力学的求解速度, 一般采用并行执行的方法, 然而由于计算硬件架构和编程语言的多样性, 对程序的可移植性带来了挑战. 为此本文使用Kokkos框架实现了计算流体力学求解器的异构并行计算, 并且使用规约法、原子操作和染色法来处理并行计算过程中的数据冲突问题, 提出了基于此框架下的异构并行计算的数据冲突的算法实现方案. 针对图形处理器的架构特点, 分析了不同硬件上单精度和双精度计算的加速比, 得出了不同计算硬件上的最优并行策略. 研究证明使用原子操作单精度计算对于使用图形处理器加速流体力学计算而言, 能够极大地提升求解效率.
    优先出版日期:  2025-02-28 ,DOI: 10.15888/j.cnki.csa.009818
    摘要:
    近年来互联网码号资源公钥基础设施 (resource public key infrastructure, RPKI)部署率逐年上升, 这对依赖方软件原有单体同步的架构在性能与效率方面提出了挑战-其架构设计需要进行重新考量, 以适应RPKI技术的演进. 本文对RPKI同步任务进行了梳理与分析, 并基于此设计了一个RPKI依赖方任务同步系统. 相比单体架构, 该系统的分布式架构有着较高的同步性能及节点容错性. 同时, 本文为该系统设计了多种调度算法, 同时, 为进一步优化该系统性能, 本文对这些调度算法及任务调度策略进行了多组对照分析实验. 从实验结果看, 该分布式系统在大作业优先 (large job first, LJF)任务调度策略下的动态调度算法表现性能最佳.
    优先出版日期:  2025-02-28 ,DOI: 10.15888/j.cnki.csa.009819
    摘要:
    针对单目图像中不同深度目标的尺度差异所导致的单目3D目标检测算法精度不佳的问题, 提出一种基于融合采样和深尺约束的检测算法. 首先, 为增强采样特征对不同尺度目标的表征能力, 构建多尺度特征融合模块 (muti-scale fusion module, MFM), 通过分层聚合和迭代聚合对不同层级、不同尺度的特征进行融合采样, 从而提高对目标隐式尺度特征的提取能力. 此外, 构造深度尺度相关化模块 (depth-scale correlation module, DSCM), 利用深度与尺度之间的线性投影约束将不同尺度的目标补偿式放缩至同一特征水平, 以此平衡模型对不同距离目标的关注度. 基于KITTI数据集和Waymo数据集的定量结果表明, 所提出的算法相较于同类算法在多种难度下的整体平均精度AP3D分别提升了1.56个百分点和3.07个百分点, 验证了算法的有效性及泛化性, 同时基于两类数据集的定性结果验证了该算法显著缓解了目标尺度差异对检测性能造成的影响.
    优先出版日期:  2025-02-28 ,DOI: 10.15888/j.cnki.csa.009843
    摘要:
    联邦学习(federated learning, FL)是一种新兴的分布式机器学习框架, 旨在解决数据隐私保护和高效分布式计算的问题. 它允许多个客户端在不共享数据的前提下协同训练全局模型, 但由于各客户端的数据分布存在异质性, 单一的全局模型往往难以满足不同客户端的个性化需求. 针对这一问题, 本文提出了一种结合自蒸馏和解耦知识蒸馏的联邦学习算法, 该算法通过保留客户端的历史模型作为教师模型, 对客户端本地模型的训练进行蒸馏指导, 得到新的本地模型后上传到服务端进行加权平均聚合. 在知识蒸馏中, 通过对目标类知识和非目标类知识进行解耦蒸馏, 实现了对个性化知识的更充分传递. 实验结果表明, 本文提出的方法在CIFAR-10和CIFAR-100数据集上的分类准确率均超过了现有的联邦学习方法.
    优先出版日期:  2025-02-28 ,DOI: 10.15888/j.cnki.csa.009842
    摘要:
    篇章要素识别(discourse element identification)的主要任务是识别篇章要素单元并进行分类. 针对篇章要素识别对上下文依赖性理解不足的问题, 提出一种基于BiLSTM-Attention的识别篇章要素模型, 提高议论文篇章要素识别的准确率. 该模型利用句子结构和位置编码来识别句子的成分关系, 通过双向长短期记忆网络(bidirectional long short-term memory, BiLSTM)进一步获得深层次上下文相关联的信息; 引入注意力机制(attention mechanism)优化模型特征向量, 提高文本分类的准确度; 最终用句间多头自注意力(multi-head self-attention)获取句子在内容和结构上的关系, 弥补距离较远的句子依赖问题. 相比于HBiLSTM、BERT等基线模型, 在相同参数、相同实验条件下, 在中文数据集和英文数据集上准确率分别提升1.3%、3.6%, 验证了该模型在篇章要素识别任务中的有效性.
    优先出版日期:  2025-02-28 ,DOI: 10.15888/j.cnki.csa.009840
    摘要:
    为了提高青光眼疾病的预测和诊断的准确性, 避免人工筛查造成的误差累积, 本文提出了一种位置注意力引导下的青光眼自动筛查方法. 所提出的模型包含了眼底图像注意力预测和青光眼疾病分类两个部分. 首先, 提出了一个基于结合深度理解卷积核和通道激励连接空间金字塔的U型网络进行眼底图像注意力预测, 并将解码过程中的特征图作为空间信息引导青光眼分类. 其次, 提出了在青光眼分类模型中使用的位置注意力机制, 该注意力机制结合不同来源的通道信息与空间信息对来自外部编码器的特征图进行动态调整. 青光眼分类模型的主分支堆叠了多个位置注意力模块和残差模块用于实现分类任务, 同时设计了一个用于分割任务的辅助分支协助模型训练和优化, 提高分类精度. 所提方法基于青光眼LAG数据集测试的精准度、召回率和AUC指标分别达到97.84%、97.75%和98.57%, 表现优于所有对比模型. 通过可视化注意力激活热图得到的模型决策关注区域更加准确, 辅助临床诊断中对病灶的定位, 并为临床诊断的结果提供有效的参考.
    优先出版日期:  2025-02-28 ,DOI: 10.15888/j.cnki.csa.009833
    摘要:
    生产中多类型、小批量的小型精密器件(直径16–40mm)主要由固定工位机器人完成主要装配工作任务, 这种装配模式成本较大, 针对这种小型器件, 市面上的AGV存在灵活性差、定位精度低的问题, 因此本文设计并开发了一种搭载工业相机与双机械臂的全向AGV自主导航完成多生产线间的动态组合工作, 实现多种类型器件有序的辅助装配. 为了提高定位精度, 通过贝叶斯法则融合2D激光雷达和RGB-D建立融合栅格地图, 提高障碍物检测率. 采用EKF融合轮式里程计与IMU的数据, 提高里程计精度, 减少运动误差. 为了提高工作效率, 在实时性做出创新, 通过RGB-D得到待抓精密器件与相机光心的距离, 融合车速与雷达、相机等部件的位姿关系等信息解算出车载双机械臂在距离待抓精密器件S距离时的最佳运动时机. 最后为了准确识别多类型、小批量的小型精密器件, 基于改进的Yolo-Fastest算法识别器件, 提高识别精度的同时降低AGV的运算成本. 通过测试, 系统对小型精密器件(如RF连接器)识别准确率不低于95%, 在70×50×100 cm3空间内能实现全向移动, 运动误差最大为10 cm, 较现有的生产模式, 此AGV柔性化程度提高, 生产成本降低, 工作效率提高了近1倍, 具有实际推广价值.
    优先出版日期:  2025-02-28 ,DOI: 10.15888/j.cnki.csa.009820
    摘要:
    在使用共识速度咨询系统 (consensus speed advisory system, CSAS)为车队推荐速度时, 常面临服务不可信以及车辆之间发送不正确数据的问题. 此外, 现有研究多集中于平坦道路的速度咨询场景, 如果使用平坦道路的速度推荐, 车辆在斜坡上可能会消耗更多的能量, 无法实现最小能耗优化目标. 为了解决上述问题, 本文提出了一种基于区块链的斜坡共识速度咨询框架. 该框架是将现有的共识速度咨询系统扩展至道路斜坡场景, 以进一步解决了自动驾驶车辆在道路斜坡上的能耗最小的优化问题. 同时, 引入了私有区块链和加密原语, 以确保服务可信以及车辆之间数据传输的隐私性. 通过以太坊私有区块链和Truffle来实现该框架, 实验结果表明, 此框架能够在斜坡场景下提供可信的共识速度推荐, 并有效地降低车辆能耗.
    优先出版日期:  2025-02-28 ,DOI: 10.15888/j.cnki.csa.009809
    摘要:
    实体对齐技术旨在识别并匹配不同知识图谱中指代同一实体的项, 对于知识图谱的融合具有至关重要的作用, 其在知识补全、社交网络分析等多个领域已经展现出广泛的应用潜力与显著的实用价值. 随着基于知识表征学习的实体对齐方法的不断演进, 研究者们开始探索利用实体之间的多种信息维度来计算相似度, 从而评估源实体与目标实体之间的相似性. 尽管如此, 实体的部分属性信息在目前已有的方法中仍未得到充分利用, 尤其是实体属性中的主题信息, 通过主题模型能够识别出实体间更为显著的语义联系. 针对这一研究, 以实体属性的主题信息为核心, 提出了一种实体对齐框架EAGT (knowledge graph entity alignment via graph convolutional network with biterm topic model), 通过实体主题结合图卷积神经网络进行实体对齐. 为了验证所提方法的有效性, 在开源的数据集上进行了实验, 结果表明, EAGT在大多数情况下均实现了性能提升.
    优先出版日期:  2025-02-26 ,DOI: 10.15888/j.cnki.csa.009804
    摘要:
    针对现有基于图神经网络的会话推荐方法中缺乏对高阶特征的提取和利用以及数据稀疏性的问题, 提出一种结合动态多阶门控图神经网络 (GGNN)和超图卷积的自监督会话推荐模型(SDMHC-GNN). 首先, 利用不同的图结构将会话序列建模为3个不同的视图: 会话视图、超图视图和关系视图, 会话视图使用动态多阶门控图神经网络、稀疏自注意力和稀疏全局注意力机制生成局部顺序会话表示, 超图视图使用超图卷积和软注意力机制生成高阶会话表示, 关系视图使用图卷积和稀疏交叉注意力机制生成会话关系表示; 其次, 通过自监督学习对不同的会话表示之间的互特征最大化; 最后, 通过意向邻居协作模块对当前会话表示进行过滤和增强. 在Diginetica和Tmall两个公开数据集上进行多次实验, 并与先进基线模型比较, 实验结果表明所提出模型的性能优于基线模型, 证明了该模型的有效性.
    优先出版日期:  2025-02-26 ,DOI: 10.15888/j.cnki.csa.009834
    摘要:
    在目前交通预测中, 基于深度学习的时空分离建模方法难以有效地表达数据中的时空耦合相关性, 时空联合建模方法虽然可以一定程度上弥补时空分离建模的缺点, 但是其在构建时空超图时存在表达能力不足、计算复杂度高等问题, 为此提出一种改进的窗口时空注意力网络 (window spatial-temporal attention network, W-STANet) 的时空联合建模方法. W-STANet 主要由数据嵌入层、时空相关性建模层、预测头 3 部分组成. 时空相关性建模层通过堆叠多个时空注意力块实现对交通数据时空相关性特征的学习; 同时, 通过引入局部窗口计算方式以及数据移位和交换操作, 大幅度降低了建模过程中的计算复杂度, 并实现了在时空图中局部视角和全局视角的建模. 在5个真实交通公共数据集上的实验结果表明, 相比其他时空联合建模方法有着更好的预测性能. 与其他时空分离建模方法相比, 在大规模路网的数据集上的预测性能较优.
    优先出版日期:  2025-02-26 ,DOI: 10.15888/j.cnki.csa.009836
    摘要:
    基于深度学习的人工智能诊断模型严重依赖于高质量的详尽注释数据进行算法训练, 但受到噪声标签信息的影响. 为了增强模型的鲁棒性并防止有噪声的标签记忆, 本文提出了一种基于多维度对比学习的噪声标签图像分类方法, 该方法可以有效地融合多维度对比学习和半监督学习来对抗标签噪声. 具体来说, 提出的方法由3个精心设计的组件组成: 以混合增强图像为输入, 设计了具有动量更新机制的混合特征嵌入模块来挖掘抽象的分布式特征表示. 同时, 通过使用多维度对比学习模块, 结合实例对比学习和类间对比学习, 从不同维度对特征空间中的特征进行调整. 此外, 还利用噪声鲁棒损失函数来确保具有正确标签的样本在学习过程中占主导地位. 在CIFAR-10和CIFAR-100数据集上进行的实验表明, 我们的方法取得了比现有方法更好的结果.
    优先出版日期:  2025-02-26 ,DOI: 10.15888/j.cnki.csa.009839
    摘要:
    近年来, 随着伪造人脸技术的快速发展, 通过伪造人脸技术合成的人脸已经非常逼真, 人眼很难鉴别, 部分不法分子对伪造人脸技术的非法应用已经对社会稳定、个人隐私造成了恶劣影响, 因此伪造人脸检测技术的重要性日益凸显. 本文系统地探讨了伪造人脸检测技术的现状, 主要从伪造人脸图像和伪造人脸视频的检测两个方面进行分析. 在伪造人脸图像检测方面, 重点讨论了基于图像空间域和频率域的方法、身份一致性检测以及人脸区域定位技术的应用. 在伪造人脸视频检测方面, 研究聚焦于时空特征融合、生理特征利用及视听信息的结合. 此外, 本文介绍了常用的评估指标, 系统分析了多种重要数据集, 包括其特点和适用场景. 同时还指出当前文献中的局限性, 例如对抗样本的鲁棒性不足、检测方法对新型伪造技术的适应性差等问题. 基于这些分析, 我们提出了未来可能的研究方向, 包括跨域检测技术的优化、新算法的探索及模型的可解释性研究. 本文不仅为研究者提供了对伪造人脸检测技术的全面了解, 也为后续研究指明了发展方向, 具有重要的理论价值和实际应用意义.
    优先出版日期:  2025-02-25 ,DOI: 10.15888/j.cnki.csa.009812
    摘要:
    多域面部表情转移涉及不同图像之间的相互转换, 目的是生成具有源面部表情和目标面部身份特征的高逼真度面部图像, 解决传统方法生成图像相似度高和图像真实性低的问题. 本文提出了一种基于改进StarGAN-V2的多域面部表情转移模型, 该模型由生成器、鉴别器、映射网络和风格编码器组成, 引入了空间注意力机制, 并将循环一致性损失改进为对抗性循环一致性损失, 在生成器后增加了一个新的域反馈鉴别器. 该改进后的StarGAN-V2模型能够基于源图像和目标图像, 生成具有源面部表情和目标面部身份特征的高逼真度面部图像. 实验结果表明, 改进后的模型潜在引导合成和参考引导合成FID值为11.9 与17.4, LPIPS值为0.491与0.426, 均优于对照模型, 改进后的模型解决了图像相似度高的问题, 生成的图像也更加真实.
    优先出版日期:  2025-02-25 ,DOI: 10.15888/j.cnki.csa.009816
    摘要:
    不同时间获取的同一区域的双时相遥感图像在风格上往往具有很大差异, 大多数研究方法忽略了这个问题, 导致在风格多样的数据集上应用时, 模型的性能指标和可视化效果不尽如人意. 为此, 本文首先使用风格迁移模块针对某一时刻原始图像生成类似另一时刻风格的风格迁移图像. 其次, 提出了一种基于双向风格迁移的孪生对称差分特征金字塔网络 (symmetrical difference feature pyramid network, SDFPNet), 确定不同风格迁移方向对变化检测精度提升的影响程度. 具体来说, 将原始图像和风格迁移图像作为SDFPNet输入, 使用两个孪生的轻量化网络和差分特征金字塔网络 (difference feature pyramid network, DFPNet)同时进行参数优化, 得到两个并行分支预测的变化图. 为了减少变化像素点的误判, 融合两个预测结果提升变化检测的准确性. 在LEVIR-CD、CDD和SYSU-CD这3个数据集上通过实验证明, 本文提出的基于双向风格迁移的SDFPNet在遥感变化检测任务上的评价指标优于SOTA (state-of-the-art)方法. 尤其是在由于季节变化, 风格差异较大的CDD和SYSU-CD数据集, 在CDD数据集上检测精度达到99.37%, F2分数达到94.19%, SYSU-CD数据集上检测精度达到92.31%. 有效解决了双时相图像风格差异大导致的变化检测精度不佳问题.
    优先出版日期:  2025-02-25 ,DOI: 10.15888/j.cnki.csa.009806
    摘要:
    针对当前时间序列预测任务中存在多维特征建模困难、数据非平稳、预测准确性要求高等问题, 提出结合因果卷积的非平稳学习倒置Transformer模型. 该模型首先利用倒置嵌入时间序列数据交换注意力机制和前馈神经网络原有功能, 使用注意力机制学习时间序列数据的多元相关性, 前馈神经网络学习时间序列的时间依赖性, 在多维时间序列时间及变量上建模, 增强模型在时间维度和变量间关系的泛化能力, 从而提高模型的可解释性. 然后, 利用序列平稳化模块解决数据非平稳性问题以提高模型的可预测能力. 最后使用结合因果卷积的非平稳学习注意力机制将平稳化模块中消失的关键特征与信息重新引入, 从而提高模型的预测准确性. 与PatchTST、iTransformer、Crossformer等多个主流基准模型进行比较, 所提模型在Exchange等4个数据集上的均方误差平均下降了6.2%–65.0%. 通过消融实验表明本文的倒置嵌入模块、结合因果卷积的非平稳学习注意力模块能有效提升时间序列预测的准确度.
    优先出版日期:  2025-02-25 ,DOI: 10.15888/j.cnki.csa.009811
    摘要:
    针对无人机航拍图像目标尺寸小、分布密集且被遮挡造成误检漏检等问题, 提出一种结合重参数化思想与多层次特征融合的航拍图像小目标检测算法. 首先, 利用重参数化思想设计了重参数化卷积模块 (reparameterized convolution module, RCM), 与C2f模块结合设计了C2f-RCM模块, 通过扩大感受野有效绘制上下文信息, 更好地提取图像中的细微特征. 其次, 为解决颈部网络在特征融合部分造成的信息丢失问题, 提出一种多层次特征融合模块(multi-level feature fusion module, MFFM), 该模块利用跨层次间的信息融合, 有效减少了在遮挡情况下的漏检现象, 使得网络在检测大、中、小目标时能够显著提升准确度. 最后, 提出一种Inner-Shape IoU边界框回归损失函数, 通过构建辅助边框和关注边界框的自身形状, 以增强模型的收敛速度. 实验结果表明, 与基线模型相比, 本文方法在VisDrone2019中, mAP@0.5、PrecisionRecall分别提高了5.7%、5.7%、2.4%, 在AI-TOD中, mAP@0.5、PrecisionRecall提升了3.7%、3.9%、5.3%, 验证了本文方法在航拍图像小目标检测方面的有效性.
    优先出版日期:  2025-02-18 ,DOI: 10.15888/j.cnki.csa.009799
    摘要:
    近年来, 随着城市化进程的加快, 城市排水系统在面对极端天气时常难以应对, 道路积水问题频繁发生. 为了解决道路积水的检测问题, 本文基于DeepLabv3+模型提出改进算法. 首先, 在解码器端设计加权双向特征金字塔网络(bidirectional feature pyramid network, BiFPN)模块, 利用主干网络获取的不同尺度低层特征映射进行融合, 充分发挥从骨干网络获取的多尺度信息的潜力. 其次, 利用Mamba改进Transformer模块设计并行分支对高级特征映射进行处理, 构建全局依赖, 弥补ASPP中空洞卷积可能造成的局部信息丢失问题. 最后, 引入极化自注意力机制(polarized self-attention, PSA)模块, 减少双分支输出直接相加对于数据可能带来不同的影响. 实验结果表明, 在道路积水数据集上, 改进算法mIoU为87.54%, PA为96.61%, 与原算法相比, mIoU提高了4.22%, PA提高了1.66%.
    优先出版日期:  2025-02-18 ,DOI: 10.15888/j.cnki.csa.009807
    摘要:
    随着注意力机制在目标检测中的广泛应用, 进一步提升特征提取能力成为研究的重点. 提出了一种新的注意力机制, 旨在优化特征交互过程, 提升检测性能. 所提机制移除了传统自注意力中的查询操作, 采用深度可分离卷积高效提取局部与全局信息, 并通过键和值的加权融合实现特征聚合. 本文方法有效降低了计算复杂度, 增强了模型对重要特征的捕捉能力. 通过在5个不同类型的数据集上进行验证, 实验结果表明, 该注意力机制在处理小目标检测、遮挡处理以及复杂场景下的表现优异, 显著提高了检测精度与效率. 可视化分析进一步证实了其在特征提取中的有效性.
    优先出版日期:  2025-02-18 ,DOI: 10.15888/j.cnki.csa.009808
    摘要:
    随着网络视频平台(network video platform, NVP)应用, 网络视频在不同视频平台分享时常面临被侵权和跨平台版权检测问题, 所以本文提出了一种基于区块链跨平台网络视频版权保护方案(blockchain-based cross-platform network video copyright protection scheme, BCVCP) 旨在通过区块链和利用生成的所有权序列(ownership sequence, OS), 进行所有权序列检测, 来实现跨视频平台的网络视频版权保护. 本文包括身份认证、提取关键帧、所有权序列的生成和检测、网络视频控制管理等部分. 具体来说, 在对网络视频上传或访问等操作之前, 需要进行身份认证, 确保身份信息的安全. 其次, 上传网络视频过程中会生成所有权序列, 存储在分布式节点中. 然后, 提取视频关键帧, 把生成的所有权序列嵌入到视频关键帧中. 最后, 调用智能合约进行跨平台所有权序列检测和对网络视频的传播控制管理, 避免侵权行为. 在实验中, 验证了跨视频平台传输网络视频时所有权编码质量和所有权识别的鲁棒性, 保护了网络视频的版权.
    优先出版日期:  2025-02-18 ,DOI: 10.15888/j.cnki.csa.009827
    摘要:
    RISC-V软件生态正在加速发展, 国际开源社区积极投入RISC-V软件生态, 针对RISC-V主动适配和优化, 积极推动RISC-V软件生态系统向前发展. PyTorch是一个开源的Python机器学习库, 其在性能、开源生态、研究领域都有非常大的优势, 其对x86、ARM、PowerPC以及CUDA等指令集架构都提供了较好的支持. 但是, 在目前的RISC-V架构上, 软件生态移植集中在对RISC-V标准指令集的适配, 尚不能充分利用RISC-V扩展指令集优化软件生态, 距离ARM、x86等成熟软件生态存在较大差距. PyTorch因缺少RISC-V V扩展(RVV)的支持, 使得RISC-V平台的推理性能与同规格ARM平台差距较大. 针对上述问题, 本文提出了一种面向PyTorch RVV 1.0的高效开发方案, 并使用RVV扩展指令集对PyTorch深度卷积算子进行针对性优化, 并在K230开发板上进行了对比分析, 实验结果表明, 相比标量实现, 利用RVV优化的深度卷积算子性能提升约1.35–3.8倍.
  • 全文下载排行(总排行年度排行各期排行)
    摘要点击排行(总排行年度排行各期排行)

  • 快速检索
    过刊检索
    全选反选导出
    显示模式:
    2000,9(2):38-41
    [摘要] (12794) [HTML] (0) [PDF 0.00 Byte] (23469)
    摘要:
    本文详细讨论了VRML技术与其他数据访问技术相结合 ,实现对数据库实时交互的技术实现方法 ,并简要阐述了相关技术规范的语法结构和技术要求。所用技术手段安全可靠 ,具有良好的实际应用表现 ,便于系统移植。
    1993,2(8):41-42
    [摘要] (9838) [HTML] (0) [PDF 0.00 Byte] (33133)
    摘要:
    本文介绍了作者近年来应用工具软件NU清除磁盘引导区和硬盘主引导区病毒、修复引导区损坏磁盘的 经验,经实践检验,简便有效。
    1995,4(5):2-5
    [摘要] (9392) [HTML] (0) [PDF 0.00 Byte] (15529)
    摘要:
    本文简要介绍了海关EDI自动化通关系统的定义概况及重要意义,对该EDI应用系统下的业务运作模式所涉及的法律问题,采用EDIFACT国际标准问题、网络与软件技术问题,以及工程管理问题进行了结合实际的分析。
    2016,25(8):1-7 ,DOI: 10.15888/j.cnki.csa.005283
    [摘要] (9063) [HTML] (0) [PDF 1.11 M] (40628)
    摘要:
    从2006年开始,深度神经网络在图像/语音识别、自动驾驶等大数据处理和人工智能领域中都取得了巨大成功,其中无监督学习方法作为深度神经网络中的预训练方法为深度神经网络的成功起到了非常重要的作用. 为此,对深度学习中的无监督学习方法进行了介绍和分析,主要总结了两类常用的无监督学习方法,即确定型的自编码方法和基于概率型受限玻尔兹曼机的对比散度等学习方法,并介绍了这两类方法在深度学习系统中的应用,最后对无监督学习面临的问题和挑战进行了总结和展望.
    2008,17(5):122-126
    [摘要] (8092) [HTML] (0) [PDF 0.00 Byte] (50224)
    摘要:
    随着Internet的迅速发展,网络资源越来越丰富,人们如何从网络上抽取信息也变得至关重要,尤其是占网络资源80%的Deep Web信息检索更是人们应该倍加关注的难点问题。为了更好的研究Deep Web爬虫技术,本文对有关Deep Web爬虫的内容进行了全面、详细地介绍。首先对Deep Web爬虫的定义及研究目标进行了阐述,接着介绍了近年来国内外关于Deep Web爬虫的研究进展,并对其加以分析。在此基础上展望了Deep Web爬虫的研究趋势,为下一步的研究奠定了基础。
    2011,20(11):80-85
    [摘要] (7747) [HTML] (0) [PDF 842.93 K] (44181)
    摘要:
    在研究了目前主流的视频转码方案基础上,提出了一种分布式转码系统。系统采用HDFS(HadoopDistributed File System)进行视频存储,利用MapReduce 思想和FFMPEG 进行分布式转码。详细讨论了视频分布式存储时的分段策略,以及分段大小对存取时间的影响。同时,定义了视频存储和转换的元数据格式。提出了基于MapReduce 编程框架的分布式转码方案,即Mapper 端进行转码和Reducer 端进行视频合并。实验数据显示了转码时间随视频分段大小和转码机器数量不同而变化的趋势。结
    1999,8(7):43-46
    [摘要] (7408) [HTML] (0) [PDF 0.00 Byte] (25125)
    摘要:
    用较少的颜色来表示较大的色彩空间一直是人们研究的课题,本文详细讨论了半色调技术和抖动技术,并将它们扩展到实用的真彩色空间来讨论,并给出了实现的算法。
    2022,31(5):1-20 ,DOI: 10.15888/j.cnki.csa.008463
    [摘要] (7264) [HTML] (4707) [PDF 2.46 M] (7617)
    摘要:
    深度学习方法的提出使得机器学习研究领域得到了巨大突破, 但是却需要大量的人工标注数据来辅助完成. 在实际问题中, 受限于人力成本, 许多应用需要对从未见过的实例类别进行推理判断. 为此, 零样本学习(zero-shot learning, ZSL)应运而生. 图作为一种表示事物之间联系的自然数据结构, 目前在零样本学习中受到了越来越多的关注. 本文对零样本图学习方法进行了系统综述. 首先概述了零样本学习和图学习的定义, 并总结了零样本学习现有的解决方案思想. 然后依据图的不同利用方式对目前零样本图学习的方法体系进行了分类. 接下来讨论了零样本图学习所涉及到的评估准则和数据集. 最后指明了零样本图学习进一步研究中需要解决的问题以及未来可能的发展方向.
    ()
    摘要:
    2012,21(3):260-264
    [摘要] (6655) [HTML] (0) [PDF 328.42 K] (46332)
    摘要:
    开放平台的核心问题是用户验证和授权问题,OAuth 是目前国际通用的授权方式,它的特点是不需要用户在第三方应用输入用户名及密码,就可以申请访问该用户的受保护资源。OAuth 最新版本是OAuth2.0,其认证与授权的流程更简单、更安全。研究了OAuth2.0 的工作原理,分析了刷新访问令牌的工作流程,并给出了OAuth2.0 服务器端的设计方案和具体的应用实例。
    2007,16(9):22-25
    [摘要] (6582) [HTML] (0) [PDF 0.00 Byte] (8730)
    摘要:
    本文结合物流遗留系统的实际安全状态,分析了面向对象的编程思想在横切关注点和核心关注点处理上的不足,指出面向方面的编程思想解决方案对系统进行分离关注点处理的优势,并对面向方面的编程的一种具体实现AspectJ进行分析,提出了一种依据AspectJ对遗留物流系统进行IC卡安全进化的方法.
    2011,20(7):184-187,120
    [摘要] (6508) [HTML] (0) [PDF 714.75 K] (35417)
    摘要:
    针对智能家居、环境监测等的实际要求,设计了一种远距离通讯的无线传感器节点。该系统采用集射频与控制器于一体的第二代片上系统CC2530 为核心模块,外接CC2591 射频前端功放模块;软件上基于ZigBee2006 协议栈,在ZStack 通用模块基础上实现应用层各项功能。介绍了基于ZigBee 协议构建无线数据采集网络,给出了传感器节点、协调器节点的硬件设计原理图及软件流程图。实验证明节点性能良好、通讯可靠,通讯距离较TI 第一代产品有明显增大。
    2019,28(6):1-12 ,DOI: 10.15888/j.cnki.csa.006915
    [摘要] (6270) [HTML] (20147) [PDF 656.80 K] (27938)
    摘要:
    知识图谱是以图的形式表现客观世界中的概念和实体及其之间关系的知识库,是语义搜索、智能问答、决策支持等智能服务的基础技术之一.目前,知识图谱的内涵还不够清晰;且因建档不全,已有知识图谱的使用率和重用率不高.为此,本文给出知识图谱的定义,辨析其与本体等相关概念的关系.本体是知识图谱的模式层和逻辑基础,知识图谱是本体的实例化;本体研究成果可以作为知识图谱研究的基础,促进知识图谱的更快发展和更广应用.本文罗列分析了国内外已有的主要通用知识图谱和行业知识图谱及其构建、存储及检索方法,以提高其使用率和重用率.最后指出知识图谱未来的研究方向.
    2004,13(10):7-9
    [摘要] (6132) [HTML] (0) [PDF 0.00 Byte] (13663)
    摘要:
    本文介绍了车辆监控系统的组成,研究了如何应用Rockwell GPS OEM板和WISMOQUIKQ2406B模块进行移动单元的软硬件设计,以及监控中心 GIS软件的设计.重点介绍嵌入TCP/IP协议处理的Q2406B模块如何通过AT指令接入Internet以及如何和监控中心传输TCP数据.
    2008,17(1):113-116
    [摘要] (6076) [HTML] (0) [PDF 0.00 Byte] (51969)
    摘要:
    排序是计算机程序设计中一种重要操作,本文论述了C语言中快速排序算法的改进,即快速排序与直接插入排序算法相结合的实现过程。在C语言程序设计中,实现大量的内部排序应用时,所寻求的目的就是找到一个简单、有效、快捷的算法。本文着重阐述快速排序的改进与提高过程,从基本的性能特征到基本的算法改进,通过不断的分析,实验,最后得出最佳的改进算法。
    2008,17(8):87-89
    [摘要] (6002) [HTML] (0) [PDF 0.00 Byte] (43376)
    摘要:
    随着面向对象软件开发技术的广泛应用和软件测试自动化的要求,基于模型的软件测试逐渐得到了软件开发人员和软件测试人员的认可和接受。基于模型的软件测试是软件编码阶段的主要测试方法之一,具有测试效率高、排除逻辑复杂故障测试效果好等特点。但是误报、漏报和故障机理有待进一步研究。对主要的测试模型进行了分析和分类,同时,对故障密度等参数进行了初步的分析;最后,提出了一种基于模型的软件测试流程。
    2008,17(8):2-5
    [摘要] (5858) [HTML] (0) [PDF 0.00 Byte] (34215)
    摘要:
    本文介绍了一个企业信息门户中单点登录系统的设计与实现。系统实现了一个基于Java EE架构的结合凭证加密和Web Services的单点登录系统,对门户用户进行统一认证和访问控制。论文详细阐述了该系统的总体结构、设计思想、工作原理和具体实现方案,目前系统已在部分省市的广电行业信息门户平台中得到了良好的应用。
    2004,13(8):58-59
    [摘要] (5826) [HTML] (0) [PDF 0.00 Byte] (29823)
    摘要:
    本文介绍了Visual C++6.0在对话框的多个文本框之间,通过回车键转移焦点的几种方法,并提出了一个改进方法.
    2009,18(5):182-185
    [摘要] (5778) [HTML] (0) [PDF 0.00 Byte] (36610)
    摘要:
    DICOM 是医学图像存储和传输的国际标准,DCMTK 是免费开源的针对DICOM 标准的开发包。解读DICOM 文件格式并解决DICOM 医学图像显示问题是医学图像处理的基础,对医学影像技术的研究具有重要意义。解读了DICOM 文件格式并介绍了调窗处理的原理,利用VC++和DCMTK 实现医学图像显示和调窗功能。
  • 全文下载排行(总排行年度排行各期排行)
    摘要点击排行(总排行年度排行各期排行)

  • 快速检索
    过刊检索
    全选反选导出
    显示模式:
    2007,16(10):48-51
    [摘要] (4927) [HTML] (0) [PDF 0.00 Byte] (90715)
    摘要:
    论文对HDF数据格式和函数库进行研究,重点以栅格图像为例,详细论述如何利用VC++.net和VC#.net对光栅数据进行读取与处理,然后根据所得到的象素矩阵用描点法显示图像.论文是以国家气象中心开发Micaps3.0(气象信息综合分析处理系统)的课题研究为背景的.
    2002,11(12):67-68
    [摘要] (4266) [HTML] (0) [PDF 0.00 Byte] (61479)
    摘要:
    本文介绍非实时操作系统Windows 2000下,利用VisualC++6.0开发实时数据采集的方法.所用到的数据采集卡是研华的PCL-818L.借助数据采集卡PCL-818L的DLLs中的API函数,提出三种实现高速实时数据采集的方法及优缺点.
    2008,17(1):113-116
    [摘要] (6076) [HTML] (0) [PDF 0.00 Byte] (51969)
    摘要:
    排序是计算机程序设计中一种重要操作,本文论述了C语言中快速排序算法的改进,即快速排序与直接插入排序算法相结合的实现过程。在C语言程序设计中,实现大量的内部排序应用时,所寻求的目的就是找到一个简单、有效、快捷的算法。本文着重阐述快速排序的改进与提高过程,从基本的性能特征到基本的算法改进,通过不断的分析,实验,最后得出最佳的改进算法。
    2008,17(5):122-126
    [摘要] (8092) [HTML] (0) [PDF 0.00 Byte] (50224)
    摘要:
    随着Internet的迅速发展,网络资源越来越丰富,人们如何从网络上抽取信息也变得至关重要,尤其是占网络资源80%的Deep Web信息检索更是人们应该倍加关注的难点问题。为了更好的研究Deep Web爬虫技术,本文对有关Deep Web爬虫的内容进行了全面、详细地介绍。首先对Deep Web爬虫的定义及研究目标进行了阐述,接着介绍了近年来国内外关于Deep Web爬虫的研究进展,并对其加以分析。在此基础上展望了Deep Web爬虫的研究趋势,为下一步的研究奠定了基础。

下载归智APP ,关注本刊

友情链接

您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号