2024, 33(4):1-12. DOI: 10.15888/j.cnki.csa.009459 CSTR:
摘要:在核心任务场景下训练深度神经网络 (DNN) 需要越来越多的算力资源, 这刺激了基于云端预测API接口的模型的窃取与盗用, 同时也违反了模型所有者的知识产权. 为了追踪公开的非法模型副本, 深度神经网络的模型指纹技术为希望保持模型完整性的模型所有者提供了一种强大的版权验证方案. 然而, 现有的模型指纹方案主要基于输出层面的内在痕迹 (例如: 特定输入样本下的错误预测行为) , 这导致在模型指纹验证阶段缺乏隐蔽性. 本文基于模型预测时的显著图 (saliency map) 痕迹, 提出了一种全新的任意下游任务通用的模型指纹方案. 本文的方案提出了受约束的显著图操控目标, 构建标签不变和自然的指纹样本, 显著提高了模型指纹的隐蔽性. 根据对3种典型任务场景下全面的评估结果, 本文提出的方法被证明能够显著地增强现有方案的指纹版权验证的效果, 同时保持高度的模型指纹隐蔽性.
2024, 33(4):13-25. DOI: 10.15888/j.cnki.csa.009461 CSTR:
摘要:多模态情感分析旨在通过用户上传在社交平台上的视频来判断用户的情感. 目前的多模态情感分析研究主要是设计复杂的多模态融合网络来学习模态之间的一致性信息, 在一定程度上能够提升模型的性能, 但它们大部分都忽略了模态之间的差异性信息所起到的互补作用, 从而导致情感分析出现偏差. 本文提出了一个基于双编码器表示学习的多模态情感分析模型DERL (dual encoder representation learning), 该模型通过双编码器结构学习模态不变表征和模态特定表征. 具体来说, 我们利用基于层级注意力机制的跨模态交互编码器学习所有模态的模态不变表征, 获取一致性信息; 利用基于自注意力机制的模态内编码器学习模态私有的模态特定表征, 获取差异性信息. 此外, 我们设计两个门控网络单元对编码后的特征进行增强和过滤, 以更好地结合模态不变和模态特定表征, 最后在融合时通过缩小不同多模态表示之间的L2距离以捕获它们之间潜在的相似情感用于情感预测. 在两个公开的数据集CMU-MOSI和CMU-MOSEI上的实验结果表明该模型优于一系列基线模型.
2024, 33(4):26-38. DOI: 10.15888/j.cnki.csa.009466 CSTR:
摘要:肝癌是一种恶性肝肿瘤, 起源于肝细胞. 肝癌诊断一直是医学难点问题, 也是各领域研究的热点问题, 早期确诊肝癌可以降低肝癌的死亡率. 组织病理学图像检查是肿瘤学诊断的黄金标准, 图像会显示组织切片的细胞和组织结构, 可以用于确定细胞类型、组织结构、异常细胞的数量和形态, 并评估肿瘤具体情况. 本文重点研究了卷积神经网络针对病理图像的肝癌诊断算法, 包括肝肿瘤检测、图像分割以及术前预测这3个方面的应用, 详细阐述了卷积神经网络各算法的设计思路和相关改进目的及方法, 以便为研究人员提供更清晰的参考思路. 总结性分析了卷积神经网络算法在诊断中的优缺点, 并对未来可能的研究热点和相关难点进行了探讨.
2024, 33(4):39-49. DOI: 10.15888/j.cnki.csa.009469 CSTR:
摘要:针对联邦学习框架下, 基于卷积注意力模块的多客户端脑肿瘤分类方法对于MRI图像中肿瘤区域细节提取能力不足、通道注意力与空间注意力相互干扰的问题, 以及针对多点医疗肿瘤数据分类准确性低的问题, 提出了一种融合联邦学习框架和改进的CBAM-ResNet18网络的脑肿瘤分类方法. 利用联邦学习特性联合多点脑肿瘤数据, 采用Leaky ReLU激活函数代替ReLU激活函数以减轻神经元死亡, 将卷积注意力模块中的通道注意力模块由先降维再升维改成先升维再降维, 充分提高网络对图像细节的提取能力, 将卷积注意力模块中的通道注意力模块与空间注意力模块由级联结构改为并联结构, 使得网络的特征提取能力不会受到二者先后顺序的影响. 通过在Kaggle公开的脑肿瘤MRI数据集上的进行实验, 该方法的准确率、精准度、召回率与F1值分别为97.78%、97.68%、97.61%与97.63%, 比基准模型分别高6.54%、4.78%、6.80%、7.00%. 实验结果证明, 该方法不仅能够打破数据孤岛, 实现多点数据融合, 而且比多数现有主流模型的性能更好.
2024, 33(4):50-59. DOI: 10.15888/j.cnki.csa.009486 CSTR:
摘要:视障人士是社会中的弱势群体, 独立出行面临重重障碍. 为视障人士提供安全可靠的辅助设备体现了社会文明的进步. 介绍了辅助视障出行有关的障碍物检测识别关键技术和路径规划相关算法. 重点对障碍物检测之后的路径规划算法进行分析, 综合对比各种技术的应用特点及场景并讨论了相关方法在视障辅助设备中的研究进展. 总结了多技术融合使用在智能辅助设备中的应用现状. 在此基础上, 结合人工智能及嵌入式设备等技术的进步展望了未来辅助视障出行设备的发展方向.
2024, 33(4):60-68. DOI: 10.15888/j.cnki.csa.009458 CSTR:
摘要:单通道语音增强任务中相位估计不准确会导致增强语音的质量较差, 针对这一问题, 提出了一种基于深度复数轴向自注意力卷积循环网络(deep complex axial self-attention convolutional recurrent network, DCACRN)的语音增强方法, 在复数域同时实现了语音幅度信息和相位信息的增强. 首先使用基于复数卷积网络的编码器从输入语音信号中提取复数表示的特征, 并引入卷积跳连模块用以将特征映射到高维空间进行特征融合, 加强信息间的交互和梯度的流动. 然后设计了基于轴向自注意力机制的编码器-解码器结构, 利用轴向自注意力机制来增强模型的时序建模能力和特征提取能力. 最后通过解码器实现对语音信号的重构, 同时利用混合损失函数优化网络模型, 提升增强语音信号的质量. 实验在公开数据集Valentini和DNS Challenge上进行, 结果表明所提方法相对于其他模型在客观语音质量评估(perceptual evaluation of speech quality, PESQ)和短时客观可懂度(short-time objective intelligibility, STOI)两项指标上均有提升, 在非混响数据集中, PESQ比DCTCRN (deep cosine transform convolutional recurrent network)提高了12.8%, 比DCCRN (deep complex convolutional recurrent network)提高了3.9%, 验证了该网络模型在语音增强任务中的有效性.
2024, 33(4):69-81. DOI: 10.15888/j.cnki.csa.009464 CSTR:
摘要:密文策略属性基加密(ciphertext-policy attribute-based encryption, CP-ABE)技术可以在保证数据隐私性的同时提供细粒度访问控制. 针对现有的基于CP-ABE的访问控制方案不能有效解决边缘计算环境中的关键数据安全问题, 提出一种边缘计算环境中基于区块链的轻量级密文访问控制方案(blockchain-based lightweight access control scheme over ciphertext in edge computing, BLAC). 在BLAC中, 设计了一种基于椭圆曲线密码的轻量级CP-ABE算法, 使用快速的椭圆曲线标量乘法实现算法加解密功能, 并将大部分加解密操作安全地转移, 使得计算能力受限的用户设备在边缘服务器的协助下能够高效地完成密文数据的细粒度访问控制; 同时, 设计了一种基于区块链的分布式密钥管理方法, 通过区块链使得多个边缘服务器能够协同地为用户分发私钥. 安全性分析和性能评估表明BLAC能够保障数据机密性, 抵抗共谋攻击, 支持前向安全性, 具有较高的用户端计算效率, 以及较低的服务器端解密开销和存储开销.
2024, 33(4):82-92. DOI: 10.15888/j.cnki.csa.009451 CSTR:
摘要:交通流预测是智能交通系统中实现城市交通优化的一种重要方法, 准确的交通流量预测对交通管理和诱导具有重要意义. 然而, 因交通流本身存在高度时空依赖性而表现出复杂的非线性特征, 现有的方法主要考虑路网中节点的局部时空特征, 忽略了路网中所有节点的长期时空特征. 为了充分挖掘交通流数据复杂的时空依赖, 提出一种融合多种时空自注意力机制的Transformer交通流预测模型(MSTTF). 该模型在嵌入层通过位置编码嵌入时间和空间信息, 并在注意力机制层融合邻接空间自注意力机制, 相似空间自注意力机制, 时间自注意力机制, 时间-空间自注意力机制等多种自注意力机制挖掘数据中潜在的时空依赖关系, 最后在输出层进行预测. 结果表明, MSTTF模型与传统时空Transformer相比, MAE平均降低了10.36%. 特别地, 相比于目前最先进的PDFormer模型, MAE平均降低了1.24%, 能取得更好的预测效果.
2024, 33(4):93-102. DOI: 10.15888/j.cnki.csa.009460 CSTR:
摘要:针对神经网络难以利用少量标注数据获取足够的信息来正确分类图像的问题, 提出了一种融合随机深度网络和多尺度卷积的关系网络——SDM-RNET. 首先在模型嵌入模块引入随机深度网络用于加深模型深度, 然后在特征提取阶段采用多尺度深度可分离卷积替代普通卷积进行特征融合, 经过骨干网络后再采用深浅层特征融合获取更丰富的图像特征, 最终学习预测出图像的类别. 在mini-ImageNet、RP2K、Omniglot这3个数据集上对比该方法与其他小样本图像分类方法, 结果表明在5-way 1-shot和5-way 5-shot分类任务上该方法准确率最高.
2024, 33(4):103-112. DOI: 10.15888/j.cnki.csa.009479 CSTR:
摘要:现有的场景文本识别器容易受到模糊文本图像的困扰, 导致在实际应用中性能较差. 因此近年来研究人员提出了多种场景文本图像超分辨率模型作为场景文本识别的预处理器, 以提高输入图像的质量. 然而, 用于场景文本图像超分辨率任务的真实世界训练样本很难收集; 此外, 现有的场景文本图像超分辨率模型只学习将低分辨率(LR)文本图像转换为高分辨率(HR)文本图像, 而忽略了从HR到LR图像的模糊模式. 本文提出了模糊模式感知模块, 该模块从现有的真实世界HR-LR文本图像对中学习模糊模式, 并将其转移到其他HR图像中, 以生成具有不同退化程度的LR图像. 本文所提出的模糊模式感知模块可以为场景文本图像超分辨率模型生成大量的HR-LR图像对, 以弥补训练数据的不足, 从而显著提高性能. 实验结果表明, 当配备提出的模糊模式感知模块时, 场景文本图像超分辨率方法的性能可以进一步提高, 例如, SOTA方法TG在使用CRNN文本识别器进行评估时, 识别准确率提高了5.8%.
2024, 33(4):113-122. DOI: 10.15888/j.cnki.csa.009450 CSTR:
摘要:当前, 大部分的学生课堂行为识别工作主要基于单帧图像进行, 忽略了行为的连贯性, 因此不能充分利用视频信息来对学生的课堂行为进行准确刻画. 所以, 本文提出一种改进的YOWO算法模型, 有效利用视频信息对学生课堂行为进行识别. 首先, 本文采集某高校真实课堂教学中的授课录像, 制作出包含5类学生课堂行为的AVA格式视频数据集; 其次, 采用时移模块TSM (temporal shift module), 用来增强模型获取时间上下文信息的能力; 最后, 采用非局部操作模块non-local来提高模型提取关键位置信息的能力. 实验结果表明, 通过对YOWO模型的优化, 使得网络的识别性能更佳. 在学生课堂行为数据集上, 改进后的算法的mAP值为95.7%, 相较于原YOWO算法在mAP值上提高了4.6%; 模型参数量为81.97×106, 计算量为22.6 GFLOPs, 参数量和计算量分别降低32.3%和9.6%; 检测速度为24.03 f/s, 提升了约3 f/s.
2024, 33(4):123-132. DOI: 10.15888/j.cnki.csa.009478 CSTR:
摘要:在边缘服务器资源受限的情况下, 如何设计合理的资源管理和任务调度方案是一项重要的研究内容. 为提升系统服务效用, 提出一种联合资源分配和计算卸载的设计方案. 首先, 借助二分搜索法和拉格朗日乘子法得到通信和计算资源的最佳匹配. 然后, 基于融合多种策略的鲸鱼优化算法来求解卸载决策, 其中包括调整收敛因子为指数幂级的非线性变化策略, 平衡探索和利用阶段的自适应权重策略, 三角形和Levy飞行的游走策略, 同时在适应度评价中引入罚函数来达到用户接入数量的约束限制, 最后利用V型传递函数制定二进制卸载策略. 仿真结果表明, 在与其他基准方案的多项指标评估中, 所提方案能有效增加网络吞吐量, 显著提高系统效用.
2024, 33(4):133-142. DOI: 10.15888/j.cnki.csa.009465 CSTR:
摘要:大小、形状、颜色、纹理的多变性以及肠壁分界模糊给结肠息肉的分割带来巨大挑战. 针对单分支网络连续采样操作造成部分细节信息丢失以及不同层次特征信息无法交互进而导致分割效果不佳的问题, 提出一种基于局部-全局特征交互的双分支结肠息肉分割网络. 网络采用CNN与Transformer双分支结构, 逐层捕获息肉局部细节特征与全局语义特征; 为充分利用不同层级、不同尺度特征信息的互补性, 利用深层语义特征对浅层细节特征的引导与增强, 设计特征协同交互模块, 动态感知并聚合跨层次特征交互信息; 为强化病变区域特征, 抑制背景噪声, 设计特征增强模块, 应用空间与通道注意力机制强化息肉病变区域特征, 同时采用结合注意力门的跳跃连接机制进一步突出边界信息, 提高边缘区域的分割精度. 实验表明, 所提出网络在多个息肉分割数据集上取得的mDice与mIoU分数均优于基线网络, 具有更高的分割准确率和稳定性.
2024, 33(4):143-151. DOI: 10.15888/j.cnki.csa.009474 CSTR:
摘要:基于深度学习的人群密度检测算法取得了巨大进步, 但该算法在实际复杂场景中的检测准确性和鲁棒性还有很大的提升空间. 复杂场景下目标尺度不一致和背景信息干扰等因素使得人群密度检测成为一项具有挑战性的任务. 针对该问题, 提出了一种基于多尺度特征融合的人群密度检测网络. 该网络首先利用不同分辨率图像并行交互提取人群粗细粒度特征, 并引入多层次特征融合机制, 以充分利用多层尺度信息. 其次采用空间和通道注意力机制突出人群特征权重, 聚焦感兴趣的人群, 降低背景信息干扰, 生成高质量密度图. 实验结果表明, 在多个典型的公共数据集上与具有代表性的人群密度检测方法相比, 多尺度特征融合的人群密度检测网络具有良好的准确性和鲁棒性.
2024, 33(4):152-161. DOI: 10.15888/j.cnki.csa.009445 CSTR:
摘要:针对水面目标检测中的噪声干扰和小目标的漏检问题, 提出一种改进YOLOv8的水面小目标检测算法YOLOv8-WSSOD (YOLOv8-water surface small object detection). 首先, 为降低水面复杂环境在主干网络下采样过程中产生的噪声干扰, 提出基于BiFormer双层路由注意力机制构建的C2fBF (C2f-BiFormer)模块, 在特征提取过程中保留细粒度的上下文特征信息; 其次, 针对水面小目标的漏检问题, 新增一个更小的检测头, 提升网络对小目标的感知力, 并在Neck端引入GSConv和Slim-neck, 减轻模型复杂度并保持精度; 最后, 使用MPDIoU损失函数解决CIoU损失函数的局限性, 以提高模型检测准确率. 实验结果表明, 相较于原始YOLOv8算法, 该算法在水面小目标上平均准确率mAP@0.5提升了4.6%, mAP@0.5:0.95提升了2.2%, 并且改进后的算法检测速度达到86f/s, 能有效实现对水面小目标快速、准确的检测.
2024, 33(4):162-170. DOI: 10.15888/j.cnki.csa.009462 CSTR:
摘要:在大数据时代, 用于数据处理的算法数量呈爆发式增长, 当前对大量算法的管理方法通常是对算法分类、打标签或以任务为单位存储由算法构成的流程, 对任务集合中的算法间拓扑关系未能给予足够的重视. 随着领域知识与任务流程的积累, 算法间的依赖关系愈发重要. 本文基于巨量算法管理的需求, 提出了拆分有分支依赖关系为无分支依赖关系的管理方法, 通过免索引邻接图数据库的指针搜寻拓扑关系, 避免Join操作, 在管理算法依赖关系时具有先天优势. 另外为突出算法模块复用能力, 提出“连接点”的概念, 在图模型中用节点表示依赖关系边, 区分算法模块在不同任务流程的位置, 使被多个任务复用的算法模块在图中只需用一个算法模块节点表示. 最后, 基于具体项目验证了本文提出的算法关系管理方法, 证明本文算法关系管理方法在算法数量成规模且算法模块高复用的场景下具有明显优势.
2024, 33(4):171-178. DOI: 10.15888/j.cnki.csa.009448 CSTR:
摘要:通过直接处理原始数据的每个视图, 多视图子空间聚类算法通常可以获得潜在的子空间表示矩阵. 然而, 这些方法往往低估了冗余数据的影响, 因此在潜在子空间表示中准确捕捉精确的聚类结果具有挑战性. 此外, 用于产生聚类结果的 K-means 算法很容易忽略子空间内数据的局部结构, 导致结果不稳定. 针对上述问题, 本文提出了一种多视图子空间方法来获取高质量的子空间表示. 具体来说, 首先通过特征分解方法获得鲁棒性表示. 然后, 为多个视图构建一个联合潜在子空间表示. 接下来, 使用谱旋转来获得聚类结果, 并对划分矩阵采用正交约束来重构子空间, 从而提高聚类性能. 最后, 使用迭代优化算法来解决相关的优化问题. 本文在5个基准数据集上进行了实验, 结果表明, 与最近的多视图聚类算法相比, 本文的算法更加有效.
2024, 33(4):179-186. DOI: 10.15888/j.cnki.csa.009455 CSTR:
摘要:随着物联网的发展, 高效的共识算法是区块链技术应用于物联网的关键. 针对实用拜占庭容错 (practical Byzantine fault tolerance, PBFT)算法在物联网场景中通信次数多、未考虑共识功耗、共识时延高等问题, 本文提出了一种基于二分K均值算法的改进PBFT共识算法(binary K-means practical Byzantine fault tolerance algorithm, BK-PBFT). 首先, 获取节点地理坐标并计算节点综合评价值, 通过二分K均值算法将节点划分为一个双层多中心聚类集群. 然后, 先在下层集群再在上层集群对区块进行PBFT共识. 最后, 集群验证执行并存储区块, 完成共识. 此外, 本文证明了当节点均匀分布在每个簇时算法通信次数可以达到最少, 以及通信次数最少时的最优聚类数. 分析与仿真结果表明, 本文算法可以有效减少通信次数、降低共识功耗和共识时延.
2024, 33(4):187-193. DOI: 10.15888/j.cnki.csa.009467 CSTR:
摘要:针对目前三维人体姿态由于遮挡、姿态复杂等预测不准确的问题, 提出了一种改进的三维人体姿态估计算法以获得准确的三维人体姿态, 提高人体姿态估计性能. 本文采用时空图注意力卷积网络中的图注意力块来构建整个网络, 在此基础上对全局多头图注意力部分的网络结构进行改进, 使节点间更好传播和融合信息, 捕获图中没有显式表示的语义信息. 同时引入运动学约束, 在MPJPE损失的基础上, 加上骨骼长度损失. 通过对局部和全局的空间节点信息建模, 实现对局部运动学连接、对称性和全局姿态的人体骨骼运动学约束的学习. 通过实验证明, 本文改进后的模型有效地提高了人体姿态估计性能, 在Human3.6M数据集上相较于原始模型, 实现了1.8%的平均关节位置误差(MPJPE)提升和1.3%的预测关节与真值关节刚性对齐后的平均关节位置误差(P-MPJPE)提升.
2024, 33(4):194-201. DOI: 10.15888/j.cnki.csa.009481 CSTR:
摘要:基于深度学习的微光图像增强算法所生成的图像普遍存在噪声凸显和细节丢失等问题, 而端对端深度学习算法的性能又在很大程度上依赖于骨干网络的提取能力, 因此, 通过探索更有效的骨干网络结构可以提升微光增强任务的性能收益. 本文提出了一种复合主干网络融合策略的图像增强算法, 将不同图像增强算法中的主干网络进行融合, 以提高整体网络的特征提取能力. 该算法通过逐层融合来自不同主干网络的特征信息, 将复合特征引导到解码器中, 再充分利用不同的上采样方法, 将主干网络融合的特征进行堆叠, 最终生成正常光照条件下的图像. 通过与现有的主流算法进行定量与定性的对比实验, 结果显示, 本文方法显著提升了微光图像的亮度, 同时保留图像的细节特征, 在峰值信噪比和结构相似性客观指标上, 在LOL-V2数据集上达到了24.35 dB和0.871, 有效解决了图像增强后的噪声凸显和细节丢失问题.
2024, 33(4):202-208. DOI: 10.15888/j.cnki.csa.009442 CSTR:
摘要:基于远程监督的关系抽取方法可以明显地减少人工标注数据集的成本, 已经被广泛应用于领域知识图谱的构建任务中. 然而, 现有的远程监督关系抽取方法领域针对性不强, 同时也忽略了对领域实体特征信息的利用. 为了解决上述问题, 提出了一种融合实体特征和多种类注意力机制的关系抽取模型PCNN-EFMA. 模型采用远程监督和多实例技术, 不再受限于人工标注. 同时, 为了减少远程监督中噪声的影响, 模型使用了句子注意力和包间注意力这两类注意力, 并在词嵌入层和句子注意力中融合实体特征信息, 增强了模型的特征选择能力. 实验表明, 该模型在领域数据集上的PR曲线更好, 并在P@N上的平均准确率优于PCNN-ATT模型.
2024, 33(4):209-214. DOI: 10.15888/j.cnki.csa.009472 CSTR:
摘要:目前, 区块链在供应链领域中的应用越来越受到业界的广泛关注. 但由于供应链中存在大量复杂性的事务, 这给可信的主节点选取工作带来了挑战. 因此, 在机器学习分类算法与PBFT (practical Byzantine fault tolerance)共识算法的基础上, 提出一种应用于供应链的区块链PBFT共识算法优化方法. 对构建供应链与区块链的集成框架进行分析, 根据供应链中参与共识的节点属性特征, 运用K-近邻(K-nearest neighbors)来优化PBFT共识算法的主节点选取规则. 实验结果表明, 对共识节点进行信任评估分类可以较好地解决因视图切换所引发的效率问题, 从而提升区块链的吞吐量、时延、容错性等共识性能, 具有一定的实用性, 也给区块链在其他行业的应用提供了思路.
2024, 33(4):215-225. DOI: 10.15888/j.cnki.csa.009456 CSTR:
摘要:针对现有的图像修复方法在面对大规模图像缺损和不规则破损区域修复时, 修复结果出现生成结构与原图像语义不符以及纹理细节模糊等问题, 本文提出一种利用生成边缘图的多尺度特征融合图像修复算法——MSFGAN (multi-scale feature network model based on edge condition). 模型采用两阶段网络设计, 使用边缘图作为修复条件对修复结果进行结构约束. 首先, 使用Canny算子提取待修复图像的边缘图进行完整边缘图生成; 然后利用完整的边缘图结合待修复图像进行图像修复. 为了弥补图像修复算法中经常出现的问题, 提出一种融入了注意力机制的多尺度特征融合模块(attention mechanism multi-fusion convolution block, AM block), 实现受损图像的特征提取和特征融合. 在图像修复网络解码器部分引入跳跃链接, 将高级语义提取和底层特征进行融合实现高质量细节纹理修复. 在CelebA和Places2数据集上的测试结果显示, MSFGAN 修复质量上比当前修复方法有一定提升, 其中在20%–30%掩码比例中, SSIM平均提升0.0291, PSNR提升1.535 dB, 使用消融实验验证了当前优化和创新点在图像修复任务中的有效性.
2024, 33(4):226-234. DOI: 10.15888/j.cnki.csa.009452 CSTR:
摘要:本文提出了一种多层次海洋生物分类方法. 海洋生物种类繁多, 且同门类生物具有较强的类间相似性, 而不同门类生物具有较大的差异. 我们利用物种间的相似性, 帮助网络学习生物先验知识, 设计出了一种多层次分类方法. 设计了C-MBConv模块, 并结合多层次分类方法改进了EfficientNetV2网络架构, 改进后的网络架构称为CM-EfficientNetV2. 我们的实验表明CM-EfficientNetV2比原网络EfficientNetV2有着更高的准确率, 在南麂列岛潮间带海洋生物数据集上准确率提高了1.5%, 在CIFAR-100上准确率提高了2%.
2024, 33(4):235-245. DOI: 10.15888/j.cnki.csa.009470 CSTR:
摘要:最近, 强化学习技术在序列推荐系统取得成功, 它能从用户长期反馈信号中学习有效的推荐策略. 然而, 模型的激励函数设计面临区分度过低的难题. 这限制了模型学习不同用户反馈信号间的价值差异的能力, 并导致推荐策略总是次优的. 现有工作主要通过调节衰减因子来保证激励函数区分度, 但它依赖专家先验知识缺乏理论基础. 为了更合理地设计激励函数和提高其区分度, 本文依据因果论来分析推荐系统, 并提出一种基于反事实区分度增强的序列推荐算法CAL4Rec. 首先, 所提出方法用结构因果图描述序列推荐过程, 并创造性地用因果图定义了因果可鉴别的价值激励区分度. 其次, 该方法用反事实生成对抗的自监督学习过程优化推荐策略网络, 以学习用户的真实倾向. 在一系列序列推荐基准数据集上, 对CAL4Rec开展了广泛对比和消融实验, 实验结果表明CAL4Rec的提升对多种网络实现结构有效(平均2.34%).
2024, 33(4):246-253. DOI: 10.15888/j.cnki.csa.009457 CSTR:
摘要:可控文本摘要模型可以生成符合用户偏好的摘要. 之前的摘要模型侧重于单独控制某个属性, 而不是多个属性的组合. 传统的Seq2Seq多属性可控文本摘要模型在满足多个控制属性时, 存在无法整合所有控制属性、无法准确再现文本中关键信息和无法处理单词表外单词等问题. 为此, 本文提出了一种基于扩展Transformer和指针生成网络(pointer generator network, PGN)的模型. 模型中的扩展Transformer将Transformer单编码器-单解码器的模型形式扩展成具有双重文本语义信息提取的双编码器和单个可融合指导信号特征的解码器形式. 然后利用指针生成网络模型选择从源文本中复制单词或利用词汇表生成新的摘要信息, 以解决摘要任务中常出现的OOV (out of vocabulary)问题. 此外, 为高效完成位置信息编码, 模型在注意力层中使用相对位置表示来引入文本的序列信息. 模型可以用于控制摘要的许多重要属性, 包括长度、主题和具体性等. 通过在公开数据集MACSum上的实验表明, 相较以往方法, 本文提出的模型在确保摘要质量的同时, 更加符合用户给定的属性要求.
2024, 33(4):254-262. DOI: 10.15888/j.cnki.csa.009475 CSTR:
摘要:近年来, 非结构化道路分割已成为计算机视觉领域的重要研究方向之一. 现有的大多数方法适合结构化道路的分割并无法满足非结构化道路分割的准确性与实时性需求. 为了解决上述问题, 本文对STDC网络进行改进, 引入残差连接来更好地融合多尺度语义信息, 还提出一种嵌入位置注意力模块的空洞空间卷积池化金字塔(PA-ASPP)来增强网络对道路等特定区域的位置感知能力. 本文在RUGD与RELLIS-3D两个数据集上进行实验, 所提出方法的MIoU在两个数据集的测试集上分别达到了50.78%和49.96%.
2024, 33(4):263-270. DOI: 10.15888/j.cnki.csa.009477 CSTR:
摘要:水声信号识别近年来备受关注, 由于海洋信道具有时变空变性、信号传播的衰落特性和水下目标声源具有复杂多变性, 水声信号识别任务面临巨大挑战. 传统的水声信号识别方法难以充分获取目标的表征信息且不具备良好的抗噪声能力, 识别效果有待提升. 针对上述问题, 本文提出一种基于多分支外部注意力网络(multi-branch external attention network, MEANet)的水声信号识别方法, 可以在复杂海洋环境下充分获取水声信号的特征并进行识别. MEANet由多分支主干网络, 通道、空间注意力模块和外部注意力模块组成. 首先, 输入数据通过多个并行的主干网络分支, 提取水声信号不同层级的特征信息; 其次, 辅以通道、空间注意力模块对水声信号的通道和空间维度分别进行加权, 调节不同通道和空间位置对特征表示的重要性; 最后, 整合外部注意力模块, 以外部记忆单元和附加计算来引导网络的特征提取和预测, 从而显著提高模型的识别率和鲁棒性. 实验结果表明, 本文提出的MEANet在ShipsEar数据集上的水声信号识别率达到98.84%, 显著优于其他对比算法, 证实了其有效性.
2024, 33(4):271-278. DOI: 10.15888/j.cnki.csa.009463 CSTR:
摘要:移动边缘计算和超密集网络技术在扩大移动设备计算能力和增加网络容量方面有明显的优势. 然而, 在两者融合的场景下, 如何有效降低基站之间的同信道干扰, 减少任务传输的时延和能耗是一个重要研究课题. 本文设计了一个基于多基站博弈均衡的分布式无线资源管理算法. 将小基站之间的无线资源管理问题转化为博弈问题, 提出一种基于奖励驱动的策略选择算法. 基站通过迭代不断更新其策略的选择概率, 最终优化子信道分配和发射功率的调控. 仿真结果表明, 我们的算法在提高信道利用率和降低任务处理的时延和能耗方面具有优势.
2024, 33(4):279-287. DOI: 10.15888/j.cnki.csa.009468 CSTR:
摘要:步态识别是根据人体的行走方式进行身份识别. 目前, 大多数步态识别方法通过浅层神经网络进行特征提取, 在室内步态数据集表现良好, 然而在近年新公布的室外步态数据集中性能表现不佳. 为了解决室外步态数据集带来的严峻挑战, 提出了一种基于视频残差神经网络的深度步态识别模型. 在特征提取阶段, 基于提出的视频残差块构建深层3D卷积神经网络(3D CNN), 提取整个步态序列的时空动力学特征; 然后, 引入时序池化和水平金字塔映射降低采样特征分辨率并提取局部步态特征; 使用联合损失函数驱动训练过程, 最后通过BNNeck平衡损失函数并调整特征空间. 实验分别在公开的室内 (CASIA-B)、室外(GREW、Gait3D)这3个步态数据集上进行. 实验结果表明, 该模型在室外步态数据集中的准确率以及收敛速度优于其他模型.
2024, 33(4):288-295. DOI: 10.15888/j.cnki.csa.009480 CSTR:
摘要:数据缺失会影响数据的质量, 可能导致分析结果的不准确和降低模型的可靠性, 缺失值填补能减低偏差方便后续分析. 大多数的缺失值填补算法, 都是假设多项缺失值之间是弱相关甚至无相关, 很少考虑缺失值之间的相关性以及填补顺序. 在销售领域中对缺失值进行独立填补, 会减少缺失值信息的利用, 从而对缺失值填补的准确度造成较大的影响. 针对以上问题, 本文以销售领域为研究目标, 根据销售行为的多维度特征, 利用不同模型输出值的空间分布特征特性, 探索多项缺失值的填补更新机制, 研究面向销售数据多项缺失值增量填补方法, 根据特征相关性, 对缺失特征排序并用已填补的数据作为信息要素融合对后面的缺失值进行增量填补. 该算法同时考虑了模型的泛化性和缺失数据之间的信息相关问题, 并结合多模型融合, 对多项缺失值进行有效填补. 最后基于真实连锁药店销售数据集通过大量实验对比验证了所提算法的有效性.
2024, 33(4):296-301. DOI: 10.15888/j.cnki.csa.009473 CSTR:
摘要:容忍泄露是指为了增强签名方案的鲁棒性, 允许方案泄露部分秘密信息, 适用于设备和通讯线路均没法完美保护的大部分场合. 短签名长度一般只有普通签名一半的签名长度, 可以大大降低窄带实时交互的系统的通讯数据量. 提出了一种待签名信息关联签名密钥的短签名方案, 该方案具有容忍部分泄露的特性, 对方案的效率和安全性进行了分析, 证明了方案在容忍泄露预言机下是安全的, 实验结果表明该方案具有较好的性能, 适用于传输带宽受限的应用场合.
2024, 33(4):302-307. DOI: 10.15888/j.cnki.csa.009403 CSTR:
摘要:针对住宅需求预测受到不同方面因素的影响且具有非线性特征等问题, 本文在原始邻域粗糙集(NRS)的基础上进行改进, 并与极限学习机(ELM)相结合来进行预测. 首先改进算法(MNRS)解决了原始NRS无法在不同条件属性之间设定最佳邻域值的问题, 根据不同条件属性的邻域半径和标准差构建邻域关系矩阵; 然后在输出属性重要度排序时引入Pearson相关系数, 克服了条件属性之间的影响, 获得最小冗余属性的约简集构成住宅需求预测指标体系; 最后将构建的住宅需求指标体系输入极限学习机模型, 得到准确的预测值. 实验结果表明: MNRS-ELM预测模型不仅有效降低了运算复杂度, 而且能够获得更高的预测精度.