2025, 34(6):1-11. DOI: 10.15888/j.cnki.csa.009903 CSTR: 32024.14.csa.009903
摘要:知识追踪技术可以对学生题目作答序列等数据进行分析, 从而准确预测学生的知识点掌握状况, 以帮助教育管理者更精确地对学生进行教学干预, 提升学生的学习效果. 随着时间的推移, 知识追踪技术已经成为实现智能教育目标的重要辅助手段, 并在智能教育领域得到了广泛应用. 本综述主要研究智能教育领域的知识追踪技术发展现状. 首先, 本综述对知识追踪技术进行了概念界定; 随后, 分析了两类智能教育领域的知识追踪模型及其存在的问题, 同步总结了国内外研究者对这些问题的应对策略; 接下来, 探讨了智能教育领域知识追踪模型的实际应用场景; 最后, 明确指出了智能教育领域的知识追踪模型面临的各种挑战, 并对其未来发展进行了展望.
2025, 34(6):12-20. DOI: 10.15888/j.cnki.csa.009869 CSTR: 32024.14.csa.009869
摘要:针对传统基于阅读理解框架的命名实体识别 (NER)方法存在的单条样本实体数量稀释以及在预测实体头尾时缺乏对实体完整位置信息的利用这两方面问题, 本文基于阅读理解框架提出一种融合实体头尾关键特征的医学文本命名实体识别模型IKFSE (integrated key feature of entity start and end). 首先, 设计一种实体头尾关键特征提取模块, 提取出针对医学实体起始位置和结束位置的关键特征, 减少冗余信息对模型的影响; 其次, 设计一种实体头尾特征交叉融合模块, 在对实体起始位置和结束位置进行预测时分别引入二者对彼此的影响, 从而引入实体完整的位置信息, 提高模型的语义表征能力. 在cEHRNER和CCKS2017两个公开数据集上将IKFSE与多个主流序列标注模型和阅读理解模型相比, 结果表明本文所提方法在中文医学NER任务中有着更好的性能.
2025, 34(6):21-32. DOI: 10.15888/j.cnki.csa.009872 CSTR: 32024.14.csa.009872
摘要:针对腹部CT图像多器官分割面临的不同器官大小形态不一、相邻器官边界难以确认以及低对比度等挑战问题, 提出一种特征增强的双分支多器官分割模型. 模型总体采取编码器-解码器结构: 编码器采取主/从双分支结构, 主分支使用Mamba捕捉多器官全局依赖信息, 从分支使用CNN逐层提取多器官局部信息, 同时设计级联上下文模块将从分支局部细节特征补充到主分支中; 解码器设计多尺度特征融合模块和深度特征增强模块, 多尺度特征融合模块对跨层级特征信息进行融合, 增强多器官边界分割锐度, 深度特征增强模块应用交叉注意机制提高器官前景与背景的对比度, 减少背景信息对分割的干扰. 在Synapse和ACDC两组公开数据集上的实验结果表明, 与近几年主要基线模型相比, 所提模型的Dice相似系数 (DSC)、HD95指标均具有一定的提升.
2025, 34(6):33-40. DOI: 10.15888/j.cnki.csa.009857 CSTR: 32024.14.csa.009857
摘要:锥形束计算机断层扫描(cone beam computed tomography, CBCT)因其与现代直线加速器系统的集成而被广泛用于图像引导放射治疗. 然而, 由于其图像质量不如CT, 这给实现最佳治疗计划带来了重大挑战. 本研究提出一个名为DDFGAN (dual-domain feature fusion generative adversarial network)的新模型, 旨在改善CBCT图像质量, 使其接近CT水平. 该模型采用双分支架构: 第1分支通过引入RFB模块来提取空间域中的多尺度特征; 第2个分支则设计了一个专门针对CBCT到CT合成的频率域特征提取模块. 通过将这两个分支的特征融合, DDFGAN显著提升了CBCT的成像质量. 此外, 本模型引入几何一致性损失, 将传统的双向生成网络转变为单向生成网络, 这不仅更符合临床应用需求, 还大幅减少了训练时间. 实验结果显示, DDFGAN在生成少伪影的合成CT图像方面优于其他4种比较方法, 且其合成图像的HU值也更接近于CT图像, 显著提高了自适应放射治疗的准确性.
2025, 34(6):41-52. DOI: 10.15888/j.cnki.csa.009876 CSTR: 32024.14.csa.009876
摘要:本研究针对膝关节软骨MRI分割中标注数据稀缺的问题, 提出了一种多层次膝关节软骨图像分割网络. 该网络采用医学注意力机制, 并融合条件随机场, 形成了具有层次化注意力的架构. 通过将数据流分为全局流和局部流, 本网络能够同时捕获图像的全局特征和局部细节, 从而提升分割的准确性. 此外, 为了降低计算负担, 我们引入了轴向注意力机制, 有效地简化了计算过程并减少了模型参数. 通过层次化分割策略和条件随机场的整合, 网络能够更深入地挖掘类别间的相互依赖性, 提高了对关键特征的捕获能力. 在两个公共数据集K-Space和MOST上的实验验证了所提方法的有效性. 实验结果表明, 即使在数据标注有限的情况下, 本方法也能实现高精度的膝关节软骨图像分割. 与当前先进方法相比, 本研究的方法在Dice相似系数(DSC)和95% Hausdorff距离(HD95)等评价指标上均展现出显著优势.
2025, 34(6):53-61. DOI: 10.15888/j.cnki.csa.009938 CSTR: 32024.14.csa.009938
摘要:在无人机自主避障任务中, 传统强化学习算法往往面临状态空间高维、信息稀疏以及探索效率低下等挑战. 现有的SAC (soft Actor-Critic)算法虽然具备较强的稳定性和样本效率, 但在复杂环境下的表现仍显不足. 为此, 本文提出了一种基于注意力机制SE和随机网络蒸馏RND模块改进的SAC算法, 旨在提升无人机在三维地形环境中的自主避障能力. 注意力机制SE通过自适应调整特征图的通道权重, 增强了模型对重要信息的关注能力, 从而提升了特征表达的有效性; 而改进的RND网络则通过生成对抗目标, 鼓励探索新环境, 丰富了样本的多样性和改善了收集效率. 基于上述的SE和RND, 我们构建了一个增强特征表达和探索的SAC (EFRE-SAC) 框架, 使得无人机能够更有效地从深度图像中学习环境特征, 并在三维环境中快速适应. 在AirSim+UE4仿真平台的实验结果表明, 所提出的改进方法显著提高了无人机的避障成功率和训练效率, 验证了改进的SE和RND模块在强化学习任务中的有效性.
2025, 34(6):62-78. DOI: 10.15888/j.cnki.csa.009856 CSTR: 32024.14.csa.009856
摘要:云和云影分割是遥感图像处理的关键任务, 传统深度学习方法常面临漏检、误检和细节丢失等问题. 为解决这些挑战, 本文提出了一种结合ResNet34和MobileNetV3的双支路架构. 首先, MobileNetV3作为次残差支路, 进行初步特征提取, 这一步旨在减少在处理简单特征时的计算负担和参数量. 然后, 将初步特征送入主残差支路ResNet34中进行深层特征提取. 为避免最大池化操作带来的信息丢失, 设计了多尺度条带卷积池化模块(multi-scale strip convolutional pooling module, MS-SCPM), 通过多种池化和条形卷积提取特征, 保留重要细节. 为融合多尺度信息并有效检测小目标, 引入了注意力动态金字塔多尺度特征提取模块(attention-based dynamic pyramid multi-scale feature extraction module, ADPMFEM), 灵活捕捉关键特征并抑制冗余信息. 解码器部分采用了注意力特征感知重组模块(content-aware reassembly of features with attention, CWA), 通过特征图权重优化上采样过程, 改善边缘恢复效果, 提升分割精度. 最后, 在像素分类之前引入可变形卷积进一步优化分割效果. 实验结果表明, 所提模型在Biome 8、HRC-WHU和SPARCS数据集上表现优异, MIoU (mean intersection over union)分别提升至79.19%、90.41%和77.89%, 优于现有技术. 该成果可应用于遥感领域中的云和云影图像分析, 如环境监测、灾害评估和农业监控等领域, 提升数据处理精度和效率.
2025, 34(6):79-88. DOI: 10.15888/j.cnki.csa.009898 CSTR: 32024.14.csa.009898
摘要:随着互联网广告市场的快速增长, 精准的广告推荐变得至关重要. 如何有效学习用户特征和广告特征之间交互是点击率(CTR)与转化率(CVR)预测任务的关键. 然而, 现有的点击率与转化率预测模型存在特征依赖性偏差和广告语义信息挖掘不足的问题. 为此, 本文提出了一种知识图谱增强的广告推荐算法(knowledge graph-enhanced advertisement recommendation algorithm, KGEARA). 该算法通过构建知识图谱将结构化数据转化为三元组的形式, 有效地整合广告特征信息并捕捉广告间的关联性. 通过知识图谱表示学习将这些特征转化为嵌入表示, 以融合广告的语义特征并捕捉交互细节. 进一步利用广告特征嵌入与其他特征嵌入结合, 通过专家网络、门控网络和任务塔预测点击率和转化率, 并引入逆向倾向评分(IPS)处理点击倾向不均的问题, 以纠正预测偏差. 在广告真实数据集上进行了广泛实验, 实验结果验证了模型在提升CTR和CVR预测准确性方面的有效性.
2025, 34(6):89-96. DOI: 10.15888/j.cnki.csa.009880 CSTR: 32024.14.csa.009880
摘要:我国作为一个人口众多的农业大国, 农作物的种植面积在预测我国的粮食产量和确保粮食安全方面起着至关重要的作用. 但是传统图像分割技术在提取遥感影像中地物信息时耗时费力, 且未必能达到好的效果, 为解决此类问题, 本文用深度学习方法研究对高清遥感影像中的多种农作物进行精细化分类提取, 以合肥市周边地区农田中的水稻、玉米、大豆这3种农作物为实验样本. 在研究中, 提出一种改进的U-Net网络模型来对农作物进行提取的方法, 使提取精度达94.86%. 为了实现对农作物边界的进一步优化, 使用CascadePSP边缘优化算法对实验结果进行细化, 使提取精度高达96.72%. 实验结果表明, 本文的改进U-Net与CascadePSP算法结合, 使高清遥感影像中农作物的提取效果, 优于大多数深度学习模型.
2025, 34(6):97-106. DOI: 10.15888/j.cnki.csa.009866 CSTR: 32024.14.csa.009866
摘要:现有基于生成对抗模仿学习(GAIL)的轨迹生成方法多采用马尔可夫决策过程(MDP)建模人类移动规律, 在训练数据有限的情况下, 这些工作难以学习到动作选择与位置间的潜在关系, 并且计算状态转移函数时也没有考虑到位置间的距离约束, 生成的轨迹质量有待提升. 为此, 本文提出了一种基于生成对抗模仿学习的轨迹生成方法, 该方法首先将位置相关的动作分布先验知识融入生成器中, 帮助模型理解在特定位置上动作的变化模式, 指导模型更好地建模符合真实场景的策略函数. 此外, 将距离约束引入到状态转移函数中, 确保生成轨迹的合理性. 在两个真实数据集上进行了实验, 提出的方法在Rank指标上达到了0.0268, 与最好的基线方法相比提高了39%. 此外, 在下一个位置预测任务中, 预测的准确率比最好的基线高了6%.
2025, 34(6):107-117. DOI: 10.15888/j.cnki.csa.009847 CSTR: 32024.14.csa.009847
摘要:针对现有图像编辑方法存在编辑结果不自然、不能很好地模拟图像闭塞内容的问题, 提出基于局部区域相关信息的图像编辑算法. 首先, 获取图像编辑区域和剩余区域的掩码, 使用预训练的StyleGAN2模型和掩码分别得到编辑区域和剩余区域的雅可比矩阵; 然后, 基于图像编辑区域变化最大和剩余区域变化最小的编辑思想, 将局部区域的语义发现制定为双层优化问题; 最后, 借助最优运输理论, 构建能够利用图像编辑区域和剩余区域相关信息来获取语义方向的算法, 该算法不仅具有闭合解而且效率较高. 实验结果表明, 与主流的局部图像编辑算法LowRankGAN、ReSeFa和SDFlow算法相比, 在编辑人脸图像中的嘴巴、眼睛等局部区域时, 本文算法能够很自然地模拟图像闭塞内容以及实现自然的图像编辑, 在保证了编辑后的图像质量的同时, 也实现了图像局部区域编辑, 证实了算法的可控性和有效性.
2025, 34(6):118-127. DOI: 10.15888/j.cnki.csa.009853 CSTR: 32024.14.csa.009853
摘要:当前多数图对比学习驱动的推荐系统模型倾向于依赖单一视图进行训练, 这种做法不可避免地限制了模型对复杂数据特征的全面捕捉能力. 为此, 提出一种融合多视图对比学习和知识图谱的推荐算法MKCLR (multi-view knowledge contrastive learning recommendation). 首先, 使用了3种视图增强方法, 分别是随机边丢弃, 添加均匀噪声扰动和随机游走算法, 为知识图谱和用户-物品图构建3个对比视图; 其次, 通过LightGCN进行编码, 并为之构建多组对比学习任务, 来最大化地提取和利用多视图数据中的丰富信息; 最后, 将主推荐任务与对比学习结合起来进行联合训练, 在MIND、Last-FM和Alibaba-iFashion这3个基准数据集上进行实验, 结果表明, MKCLR在Recall和NDCG这两个评价指标上分别平均提升5.78%和8.68%, 证明了所提方法的有效性.
2025, 34(6):128-137. DOI: 10.15888/j.cnki.csa.009873 CSTR: 32024.14.csa.009873
摘要:少样本图像分类旨在从有限的标注数据中学习分类器. 尽管现有方法已取得显著进展, 但由于训练样本有限、类内差异过大、类间差异过小, 支持样本与查询样本容易发生混淆, 导致现有方法在提取有用特征和准确区分图像类别方面仍面临挑战. 为了解决这些问题, 我们设计了一种新的多元嵌入增强网络. 该网络轻量且高效, 通过生成一组特征嵌入来表示图像, 而非仅依赖单一的图像级特征. 它能够生成多种层析结构, 从而学习更丰富的特征表示, 减小类内差异并扩大类间差异. 此外, 我们提出了一种基于集合的度量方法, 并结合动态自适应加权机制, 用于衡量查询集和支持集之间的相似度. 实验结果表明, 在miniImageNet、tieredImageNet和CUB数据集上, 模型表现优异. 在使用ResNet-12网络的1-shot设置下, 准确率分别达到了72.22%、75.43%和85.02%, 相较于基准模型分别提升了1.09%、2.93%和1.47%.
2025, 34(6):138-145. DOI: 10.15888/j.cnki.csa.009868 CSTR: 32024.14.csa.009868
摘要:由于眼底图像背景复杂、毛细血管细小且模糊以及噪声干扰等原因, 传统视网膜血管分割算法容易出现识别不准确和断连等问题. 针对这些问题, 提出一种基于改进U-Net和注意力机制的视网膜血管分割算法(MRAU-Net). 为解决特征提取不充分问题, 设计了多尺度残差卷积模块(MSRCB)来代替U-Net传统的卷积块; 为了减少信息丢失和噪声干扰, 在瓶颈层嵌入双维注意力优化模块(DAOM); 为了减少在编解码过程中造成的信息丢失, 构建了一种新的多尺度密集空洞卷积块(MDCB), 并与传统的跳跃连接相结合. 在DRIVE和CHASE_DB1两个公开数据集上进行了实验, F1-score分别为82.92%、83.75%, AUC分别为98.87%、98.96%, 灵敏度分别为84.50%、83.82%, 准确率分别为97.11%、97.63%. 实验结果表明MRAU-Net较现有优秀算法拥有更优异的性能表现.
2025, 34(6):146-157. DOI: 10.15888/j.cnki.csa.009902 CSTR: 32024.14.csa.009902
摘要:传统文献特征提取方法通常依赖于单一维度的领域特征, 难以准确预测细化的文献研究领域关联程度. 细化的关联程度预测要求提取极高精度的领域关联特征, 但在多维度提取过程中很容易出现过平滑问题, 进而导致错误的领域关联程度预测, 使得量化精度较低. 为解决上述问题, 本文提出了一种基于多维特征融合的文献研究领域关联程度量化方法. 首先, 在传统Doc2Vec模型提取文献语义内容特征的基础上, 构建多个关联维度图并赋予相应权重, 以提高结构关联特征的全面性. 其次, 在图学习模块中引入多通道传播策略和自适应聚合机制, 通过优化节点关联特征的聚合方式, 缓解了传统GCN的过平滑问题, 从而实现不同文献间精确的研究领域关联. 最后, 通过构建覆盖学者多维关联特征向量空间的最小n维球模型, 定量评估跨领域学者科研能力. 在大规模真实文献数据集上的实验结果表明, 该方法的带误差容限准确率(tolerance-aware accuracy, TAA)达到0.68, 比Doc2Vec、GCN和Sentence-BERT模型分别高出0.67、0.08和0.02, 且在不同的图神经网络模型中性能波动较小, 证明了所提方法在精度和稳定性方面均优于近年主流的基线模型.
2025, 34(6):158-167. DOI: 10.15888/j.cnki.csa.009874 CSTR: 32024.14.csa.009874
摘要:动态二进制翻译在跨平台移植和兼容性方面具有重要应用, 但现有方法面临翻译效率和资源开销的挑战. 本文提出一种基于机器学习的动态二进制指令集翻译方法. 该方法的创新点在于将机器学习二进制分析、神经机器翻译技术融合为动态二进制翻译系统, 构建了一个高效精准的指令集翻译框架. 方法包括: 利用预训练模型捕获指令级语义信息、训练Transformer架构的神经翻译模型来实现指令映射, 最终通过形式化验证, 将机器学习方法生成映射与动态二进制翻译系统进行集成. SPEC CPU 2006基准测试结果表明, 该方法在翻译规则覆盖率和运行效率方面优于现有方法, 为动态二进制翻译系统优化提供了新思路.
2025, 34(6):168-179. DOI: 10.15888/j.cnki.csa.009863 CSTR: 32024.14.csa.009863
摘要:第三方库是软件开发中关键的可复用资源, 它们显著减轻开发人员重复实现常见功能的负担, 从而进一步提高开发效率. 然而, 这些库的迭代更新可能导致在Python项目中使用过时的版本, 进而引发依赖冲突问题从而导致项目构建失败, 而开发人员往往对此风险缺乏足够认识. 为了解决这个问题, 本文对103个Python开源项目的第三方库更新及依赖冲突问题进行了全面的定量分析. 研究不仅关注了第三方库的版本更新频率, 还从项目角度深入探讨依赖冲突问题的具体表现形式. 基于实证研究, 本文提出了一种面向用户需求的Python库依赖冲突检测和解决方法, 旨在通过解决依赖冲突问题来简化开发人员的决策过程. 实验结果表明该方法在检测和解决依赖冲突方面具有显著优势和实用性.
2025, 34(6):180-187. DOI: 10.15888/j.cnki.csa.009867 CSTR: 32024.14.csa.009867
摘要:皮肤衰老问题日渐引起关注, 皱纹可以有效反馈皮肤抗衰老治疗进程, 还可以反映人的生活方式、提供关于皮肤健康状况的信息. 现有皱纹检测算法受到人脸五官及图片背景的影响, 需要将面部区域切割成多个模块后才能进行检测, 且仅能在额头处水平方向皱纹的检测中展现出较好的结果, 具有较强的局限性. 针对上述问题, 本文提出一种基于改进DeepLabv3+和半自动标签策略的面部皱纹检测算法, 主要创新点包括: (1) 结合面部纹理特征和皮肤科医生对皱纹的人工标注生成深度学习所需的目标数据集标签; (2) 使用轻量级的MobileNetV2网络作为模型的主干网络, 以降低网络参数量和计算量; (3) 加入混合注意力机制, 增强特征提取能力. 最终, 使用原始图像和生成标签训练所构建的学习模型, 实现面部皱纹检测. 采用Jaccard相似性指数对本文方法的准确性进行评估. 实验结果表明, 所提算法相较于传统算法、U-Net网络、HRNetV2网络、PSPNet网络和原始DeepLabv3+网络显示出更好的性能.
2025, 34(6):188-195. DOI: 10.15888/j.cnki.csa.009862 CSTR: 32024.14.csa.009862
摘要:水下目标检测是水下作业中不可或缺的重要技术. 针对水下图像中背景复杂、待检测目标大小形状不同及存在重叠与遮挡等问题, 本文提出了一种基于双分支卷积网络的水下目标检测算法. 首先, 采用两个并行卷积神经网络作为骨干网络, 其中一个分支引入ECA注意力机制, 另一个分支采用可形变卷积, 以提高模型的特征提取能力. 其次, 使用AFF模块有效融合两个分支提取到的特征. 最后, 采用PANet金字塔结构作为颈部网络, 实现多尺度特征融合, 同时增加高分辨率检测头, 以进一步提高对小目标的敏感性. 本文在公开水下数据集RUOD上进行对比实验, 结果表明, 本文的改进算法在RUOD数据集上的mAP50达到了86.8%, 相较于基准YOLOv8n模型提升了2.7%, 并且相比于同规模的其他常见目标检测模型表现更优.
2025, 34(6):196-203. DOI: 10.15888/j.cnki.csa.009855 CSTR: 32024.14.csa.009855
摘要:扩散模型的发展使得高质量图像生成变得更加便捷, 但同时引发了生成图像的版权保护问题. 现有研究通常在扩散过程中隐秘性地嵌入水印, 以提升水印鲁棒性. 然而, 目前现有基于扩散过程的水印方案集中于嵌入固定水印, 无法满足用户对水印多样化的需求. 此外, 还存在被恶意用户更换解码器规避水印的风险. 为了解决上述问题, 本文提出了基于LoRA的双阶段扩散模型水印方案. 首先, 该方案在水印编解码预训练阶段训练出水印编解码器, 保证水印嵌入的稳定性; 然后, 在U-Net微调阶段通过LoRA和自适应注意力机制, 使U-Net在保持生成质量的同时学习到第1阶段的水印模式, 实现多用户定制化. 实验表明, 该方案在图像一致性和水印鲁棒性上均优于现有方法. 在图像攻击下, 水印图像的FID距离提高了0.61%, 平均提取精度提升了4.9%.