2024, 33(10):1-12. DOI: 10.15888/j.cnki.csa.009659 CSTR: 32024.14.csa.009659
摘要:动作识别是计算机视觉领域的一项重要技术, 根据输入数据的不同可以分为基于视频的动作识别和基于骨架的动作识别. 三维骨架数据避免了光照、遮挡等因素的影响, 对动作的描述更准确. 现在, 基于三维骨架的人体动作识别受到重视. 基于三维骨架的人体动作识别方法可以分为端到端的黑盒方法和基于模式识别的白盒方法. 黑盒的深度学习方法参数大, 能从大量的数据中学到分类知识, 但是深度学习方法难解释, 只能给出整体识别结果. 白盒的模式识别法相比黑盒方法, 其识别过程可解释、算法易调整, 但是现有的一些白盒方法主要从算法层面进行改进, 用公式去表示和区分动作, 没有体现动作之间的区别和联系. 所以本文设计一个分类过程可见的白盒方法, 使用树结构将动作数据有层次的组织起来, 根据相同动作之间的差异构建个体分类层次结构, 根据不同动作之间的区别构建动作分类层次结构. 然后将各种衡量算法纳入系统中, 在本文中选择最近邻和动态时间规整算法进行实验. 层次结构的优点是可以根据需求植入各种知识, 这样可以从不同的角度对动作进行分类. 在本文实验中, 向层次结构植入动作关键姿态知识和人体结构知识, 随着知识的植入, 层次结构也会发生变化.
2024, 33(10):13-25. DOI: 10.15888/j.cnki.csa.009662 CSTR: 32024.14.csa.009662
摘要:阿尔茨海默病是全球老龄化社会所面临的一项重大公共卫生挑战, 其主要临床症状之一为认知能力的逐步下降. 建立认知表现和神经影像学数据之间的模型, 识别与认知能力改变相关的影像学生物标志物, 已成为阿尔茨海默病研究的重要课题之一. 然而, 脑部影像数据往往呈现高维、重尾分布并伴有异常值存在, 这不仅降低了模型的准确性和稳定性, 也对结果的解释提出挑战. 本文采用稀疏分位数回归方法对阿尔茨海默病神经影像学计划数据库(ADNI)中的数据进行建模和特征选择, 以克服上述问题. 我们深入探究了认知得分在不同分位点下的分布特征, 并成功地识别了与认知能力相关的特定脑区. 实验结果表明, 稀疏分位数回归方法在不同认知得分分位点下, 均能准确识别出与认知能力相关的脑区. 这一研究展示了将稀疏分位数回归方法应用于神经影像数据分析中的潜力, 为神经影像学研究提供了全新的视角和方法.
2024, 33(10):26-36. DOI: 10.15888/j.cnki.csa.009646 CSTR: 32024.14.csa.009646
摘要:心率和血氧饱和度是反映人体健康状况极其重要的生理指标. 近年来, 基于成像式光电容积描记技术(imaging photoplethysmography, IPPG)的非接触式心率和血氧饱和度检测方法因为其方便快捷且受约束较少等优点开始逐步成为研究热点. 主要工作如下: 首先, 介绍了非接触式检测方法的背景和研究意义; 其次, 从目标区域检测和感兴趣区域(region of interest, ROI)选取两个方面总结并点明其研究现状以及未来改进方向; 再次, 从传统方法、信号处理结合深度学习方法以及端到端方法3个方面对心率和血氧饱和度检测方法进行了总结, 并梳理了深度学习方法所使用的数据集以及在各个数据集中所展现的检测效果; 最后, 指出该领域所存在的亟待解决的问题以及未来的研究方向.
2024, 33(10):37-46. DOI: 10.15888/j.cnki.csa.009635 CSTR: 32024.14.csa.009635
摘要:基层医疗机构的医生缺少患病儿童疫苗接种风险的判断能力, 通过学习高水平医院医生的经验来研发儿童疫苗接种风险预测模型, 从而帮助基层医疗机构医生快速筛查高风险患儿, 是一种可行的方案. 本文提出了一种智能化的基于知识图谱的疫苗接种建议推荐方法.首先, 提出了一种基于预训练语言模型的医学命名实体识别方法ELECTRA-BiGRU-CRF, 用于门诊电子病历命名实体抽取. 其次, 设计疫苗接种本体, 定义关系及属性, 基于Neo4j构建了中文儿童疫苗接种知识图谱. 最后, 基于构建的中文疫苗接种知识图谱, 提出了一种基于预训练语言模型进行显著性类别指导的疫苗接种建议分类推荐方法. 实验结果表明, 本文研究方法可以为医生提供辅助诊断, 对于患病儿童能否接种疫苗提供决策支持.
2024, 33(10):47-55. DOI: 10.15888/j.cnki.csa.009670 CSTR: 32024.14.csa.009670
摘要:非合作航天器缺乏合作信息, 无法直接利用传感器获得位姿数据, 提出一种基于ISAR图像的位姿识别网络. 相比于空间摄影卫星拍摄的图像以及仿真数据, 该图像更易获取、成本更低, 但存在分辨率低、面板成像不完整等问题. 因此, 该网络在图像预处理时, 通过对YOLOX-tiny的调整, 将其作为航天器裁剪网络, 避免图像中标记的数据影响后续网络的训练, 使网络仅关注航天器所在区域. 利用增强的Lee滤波滤除图像噪声, 提升图像的质量. 在骨干网络中, 加入STN模块, 使网络选择最相关的区域注意, 将U-Net网络设计成密集残差块结构并结合CBAM模块, 减少下采样期间的特征损失, 提高模型的准确性. 此外, 引入了多头自注意力来捕获更多的全局信息. 实验结果表明, 该模型最小、最大、平均误差较于目前的一些主流模型均有所提升, 误差缩小了0.5–0.6, 从而证明该网络具有更好的位姿识别能力.
2024, 33(10):56-65. DOI: 10.15888/j.cnki.csa.009668 CSTR: 32024.14.csa.009668
摘要:针对多模态遥感影像存在非线性辐射畸变的问题, 本文提出了一种结合相位对称特征与基于排序局部自相似性的多模态遥感影像匹配方法. 首先, 利用影像的局部相位信息构造相位对称图, 在此基础上利用加速分段测试特征提取算法(features from accelerated segment test, FAST)对相位对称图进行特征提取. 然后结合基于排序的局部自相似性与相位一致性构造一种新的特征描述符RPCLSS (combining rank, phase congruency and local self-similarity descriptor). 最后利用快速抽样一致性算法(fast sample consensus, FSC)进行误匹配点剔除. 将本文方法在公开的多源遥感影像数据集上与现有的5种先进匹配方法进行对比实验. 实验结果表明, 本文方法在正确匹配点数量、匹配精度和匹配正确率方面, 优于现有的先进多模态遥感影像匹配方法.
2024, 33(10):66-74. DOI: 10.15888/j.cnki.csa.009649 CSTR: 32024.14.csa.009649
摘要:针对当前视线估计任务在无约束环境中易受影响因素干扰, 准确度不高的问题, 提出一种卷积与注意力双分支并行的特征交叉融合视线估计方法, 提升了特征融合的有效性和网络性能. 首先, 对Mobile-Former网络进行改进, 引入了线性注意力机制和部分卷积, 有效提高了特征提取能力并且降低了计算成本; 其次, 增加了基于300W-LP数据集预训练的ResNet50头部姿态特征估计网络分支来增强视线估计的准确度, 并使用Sigmoid函数作为门控单元来筛选有效特征; 最后, 将面部图像输入神经网络进行特征提取和融合, 输出三维视线估计方向. 在MPIIFace-Gaze和Gaze360数据集上评估模型, 该方法的视线平均角度误差为3.70°和10.82°, 通过与其他主流三维视线估计方法比较, 验证了该网络模型能够比较准确的估计三维视线方向并降低计算复杂度.
2024, 33(10):75-86. DOI: 10.15888/j.cnki.csa.009663 CSTR: 32024.14.csa.009663
摘要:保障选矿设备的精准维护和稳定运行一直是矿山相关企业所面临的重要课题, 而研发设备预测性维护系统已成为降低设备维护成本、提升企业生产效率的重要手段. 分析了选矿设备预测性维护系统功能需求, 设计了基于微服务结构的预测性维护系统架构和总体功能结构, 深入阐述了系统关键技术, 提出了基于多尺度CNN融合注意力机制的设备健康状态评估模型, 以及基于CNN和BiLSTM的电流趋势融合预测模型, 为设备预测性维护系统的构建提供了技术支撑. 在鞍钢集团关宝山矿业有限公司对完成的系统进行了应用示范, 并对提出的模型进行了测试. 结果表明提出的模型具有较高的准确性和健壮性, 优于现有模型; 完成的系统能够提供精准的设备维护计划, 降低了设备维护成本, 并提升了企业生产效率.
2024, 33(10):87-96. DOI: 10.15888/j.cnki.csa.009647 CSTR: 32024.14.csa.009647
摘要:在癌症的形成和进展中, 癌症驱动基因扮演着重要角色. 准确识别癌症驱动基因有助于深入理解癌症的发生机制, 推动精准医学的发展. 针对当前癌症驱动基因识别领域所面临的异质性和复杂性问题, 本文设计并实现了一种基于图自编码器与LightGBM的癌症驱动基因识别系统ACGAI. 该系统首先以无监督的方式通过图自编码器学习生物分子网络的复杂拓扑结构, 随后将生成的嵌入表示与原始基因特征进行拼接, 形成基因增强特征并输入至LightGBM. 在经过训练后, 系统输出生物分子网络上每个基因的预测得分, 实现了对癌症驱动基因的准确识别. 最终, 该系统利用Web技术创建了一套用户友好、交互性强的可视化界面, 实现在基因集分析场景中的癌症驱动基因识别, 并为识别结果提供了生物学解释. 经过测试, 该系统表现出优于其他方法的识别性能, 能有效识别癌症驱动基因.
2024, 33(10):97-105. DOI: 10.15888/j.cnki.csa.009648 CSTR: 32024.14.csa.009648
摘要:随着全球经济一体化的发展, 跨境贸易已成为全球经济发展的重要推动力量. 然而, 跨境贸易目前正面临着诸如数据安全、信息孤岛和信息不对称等问题. 基于此, 本文提出了一种基于区块链的跨境贸易数据共享与访问控制方案. 该方案采用区块链和星际文件系统(IPFS)结合的协同存储机制, 有效降低了区块链的存储负载. 另外, 利用了双密钥回归模型结合时间维度对数据进行加密和存储管理, 通过设定不同的时间段来进一步划分访问权限, 限制了数据用户对时间跨度范围外的非必要访问. 最后, 设计了相应的智能合约, 实现对数据整个周期流程的高效管控, 从而有效提升了数据共享操作的执行效率. 实验结果表明, 本方案能够实现跨境贸易数据的安全共享和对用户进行细粒度访问控制.
2024, 33(10):106-114. DOI: 10.15888/j.cnki.csa.009639 CSTR: 32024.14.csa.009639
摘要:为提高深度强化学习目标检测模型的检测精度和检测速度, 对传统模型进行改进. 针对特征提取不充分的问题, 使用融入通道注意力机制的VGG16特征提取模块作为强化学习的状态输入, 来更全面地捕获图像中的关键信息; 针对仅使用交并比作为奖励出现的评价不精准问题, 使用额外考虑了真实框与预测框中心点距离以及长宽比的改进奖励机制, 使奖励更加合理; 为加速训练过程的收敛并增强智能体对当前状态和动作评价的客观性, 使用Dueling DQN算法进行训练. 在PASCAL VOC2007和PASCAL VOC2012数据集上进行实验, 实验结果表明, 该检测模型仅需4–10个候选框即可检测到目标. 与Caicedo-RL相比, 准确率提高9.8%, 最终预测框和真实框的平均交并比提高5.6%.
2024, 33(10):115-123. DOI: 10.15888/j.cnki.csa.009650 CSTR: 32024.14.csa.009650
摘要:在传统睡眠分期模型中, 由于计算资源要求高, 难以部署到有限计算能力的设备上. 本文开发了一个基于单通道脑电信号的轻量级睡眠分析系统, 该系统部署了GhostNet优化的GhostSleepNet神经网络模型, 实现了睡眠分期和睡眠质量评估的功能, 用户只需要使用脑环并连接至本系统即可在家庭环境下实现准确度高的睡眠分期. 其中, 卷积神经网络(convolutional neural network, CNN)负责提取高阶特征, GhostNet旨在保持 CNN 提取特征的准确性的同时, 减少模型参数以提高模型的计算效率, 门控循环单元(gated recurrent unit, GRU)则专注于捕捉睡眠数据的长期依赖关系与周期性变化. 本文对Sleep-EDF数据集的五分类任务进行验证, GhostSleepNet的睡眠分期准确率达到84.17%, 比传统睡眠分期模型低3%–5%, 但FLOPs仅为5 041 111 040, 计算复杂度下降20%–45%, 有助于移动设备睡眠分期功能的发展.
2024, 33(10):124-132. DOI: 10.15888/j.cnki.csa.009661 CSTR: 32024.14.csa.009661
摘要:为了提高短期电力负荷预测的精准度, 充分挖掘电力负荷数据的复杂相关性, 提出了一种优化多头注意力机制的CEEMDAN-SBiGRU组合预测模型, 改进了特征提取和特征融合两个模块. 首先, 采用自适应噪声完全集成经验模态分解(complete ensemble empirical mode decomposition with adaptive noise, CEEMDAN)将电力负荷数据分解成多个内在模态函数(IMF)和一个残差信号(RES); 同时引入降噪自编码器DAE挖掘数据中受气象因素、工作日类型和温度变化的潜在特征. 其次, 将提取到的复杂特征输入至堆叠双向门控循环单元(stacked bidirectional gated recurrent unit, SBiGRU)模块中继续学习, 以获取隐藏状态. 最后, 将获取的隐藏状态输入至加入残差机制和层归一化优化的多头注意力(optimized multi-head attention, OMHA)机制模块, 可以准确地给重要特征分配更高的权重, 解决噪声干扰问题. 实验结果表明, CEEMDAN-SBiGRU-OMHA组合模型具有更高的精确性.
2024, 33(10):133-139. DOI: 10.15888/j.cnki.csa.009630 CSTR: 32024.14.csa.009630
摘要:轻量级的图像融合算法对于人眼观察和机器识别有着重要的意义. 通过对视觉显著性在红外与可见光图像融合过程中的重要性研究, 在SDNet融合网络的基础上, 优化并设计了一种视觉显著图 (visual saliency map, VSM)指导下的MSDNet轻量型融合网络. 首先, 通过对SDNet的结构以及通道数进行了缩减以加快训练及推理速度, 并利用结构参数化与反参数化技术增强轻量化模型的学习能力; 然后, 针对模型的训练, 使用了基于显著值图VSM指导的损失函数, 实现模型的自监督训练; 最后, 在训练结束时, 将图像重建分支删除, 根据卷积参数融合得到最终的轻量化模型. 实验表明, 该轻量化网络能够在保证图像融合质量的基础上, 极大地提高了融合的速率, 使其在移动端的移植成为可能.
2024, 33(10):140-151. DOI: 10.15888/j.cnki.csa.009651 CSTR: 32024.14.csa.009651
摘要:现有的异常检测方法大多关注算法的效率和精确度等, 而忽视了异常对象的可解释性. 反事实解释方法是当前可解释机器学习的研究热点之一, 旨在通过对研究对象的特征进行扰动, 进而生成反事实示例以解释模型的决策结果. 在实际应用中, 特征之间可能存在某种因果关系. 然而, 现有基于反事实的可解释方法大多关注如何生成更多样的反事实示例, 却忽视了特征之间的因果关系, 导致可能产生不合理的反事实解释. 为此, 提出了一种考虑因果约束的异常对象反事实解释算法IARC. 该方法在生成反事实解释时, 通过将特征间的因果性纳入目标函数来衡量该次扰动是否可行, 并通过改进后的遗传算法进行求解, 从而生成合理的反事实解释. 此外, 提出了一种新的度量指标, 用于衡量所生成反事实解释的矛盾程度. 同多个先进反事实解释方法在多个真实数据集上进行了对比实验和详细的案例可解释分析. 实验结果表明, 所提出的方法能够为异常对象生成具有强合理性的反事实解释.
2024, 33(10):152-162. DOI: 10.15888/j.cnki.csa.009658 CSTR: 32024.14.csa.009658
摘要:部分线性模型作为一种重要的半参数回归模型, 因其在复杂数据结构分析中表现出的灵活适应性, 广泛应用于各领域. 然而, 在大数据背景下, 该模型的研究和应用面临着多重挑战, 其中最为关键的难点在于计算速度和数据存储. 本文针对以数据块形式连续观测的数据流场景, 提出一种在线估计的计算方法, 用于估计部分线性模型中线性部分的参数和非线性部分的未知函数. 该方法仅需利用当前数据块和之前计算过的汇总统计量即可实现实时估算. 数值模拟从两个角度进行验证有效性: 分别改变数据流的单位数据块大小和总样本规模, 以比较在线估计方法和传统估计方法的偏差、标准误差以及均方误差. 实验表明, 与传统方法相比, 本文的方法具有快速计算和无需重新访问历史数据的优势, 同时在均方误差方面接近传统方法. 最后, 基于中国综合社会调查 (CGSS) 数据, 本文应用在线估计方法分析我国劳动年龄人口生活质量的影响因素, 得出周工作时间在30–60 h范围内的全职工作对提升生活质量具有积极作用的结论, 为相关政策制定提供了一定参考价值.
2024, 33(10):163-173. DOI: 10.15888/j.cnki.csa.009666 CSTR: 32024.14.csa.009666
摘要:模型混淆是指将神经网络等价地转换为另一种形式, 是一种高效且低成本的神经网络保护技术. 为了发现模型混淆的缺陷, 研究人员提出了模型反混淆技术, 以期望改进模型混淆方法. 然而, 现有的模型反混淆技术研究较少, 并且适用场景和反混淆效果有限. 因此, 本文提出一种基于神经机器翻译(neural machine translation, NMT)技术的模型反混淆方法. 该方法将模型的反混淆任务建模成一个seq2seq的任务, 首先对混淆模型进行更详细的序列表示, 然后对权重参数中的混淆信息进行识别并处理, 最后再使用基于NMT的模型进行反混淆翻译. 实验结果表明, 该方法弥补了已有方法的不足, 能够有效地捕捉模型的混淆特征并对模型的架构进行恢复, 可以作为一种模型反混淆的通用方案.
2024, 33(10):174-182. DOI: 10.15888/j.cnki.csa.009652 CSTR: 32024.14.csa.009652
摘要:人脸图像生成对生成人脸的真实度和可控性有较高要求. 本文提出了一种由文本和脸部关键点协同控制的人脸图像生成算法. 其中文本主要是在语义层面对生成人脸进行约束; 脸部关键点使模型根据给定的脸部位置信息, 控制生成人脸的脸型、表情和细节等属性. 本文算法在现有的扩散模型基础上加以改进, 并额外引入了文本处理模块(CM)、关键点控制网络(KCN)和自编码网络(ACN). 其中, 扩散模型是一种基于扩散理论的噪声推理算法; CM基于注意力机制设计, 可以对文本信息进行编码和存储; KCN接收的是关键点的位置信息, 使生成人脸的可控性得以增强; ACN缓解了扩散模型的生成压力, 减少生成样本所需的时间. 此外, 为了适配人脸图像这一生成任务, 我们构建一个包含30000张人脸图像的数据集. 本文算法实现了: 给定一段先决条件文本和一张人脸关键点图, 模型可以提取出文本中的特征信息和关键点的位置信息, 生成高真实度和可控性强的目标人脸图像. 通过与目前主流方法进行对比, 本文算法的FID指标提高了约5%–23%, IS指标提高了约3%–14%, 证明了算法的先进性和优越性.
2024, 33(10):183-189. DOI: 10.15888/j.cnki.csa.009645 CSTR: 32024.14.csa.009645
摘要:近年来, 由于交通拥堵问题日益严重, 引起了学术界对交通信号灯控制算法研究的广泛关注. 现有研究表明, 基于深度强化学习(DRL)的方法在模拟环境中表现良好, 但在实际应用中存在着数据和计算资源需求大、难以实现路口之间协同等问题. 为解决这一问题, 本文提出了一种基于上下文多摇臂赌博机的新型交通信号控制算法. 与传统方法相比, 本文所提算法通过从路网中提取主干道的方式, 实现了路口之间的高效协同, 并利用上下文多摇臂赌博机模型实现了交通信号的快速、有效控制. 最后, 通过在真实数据集以及合成数据集上进行充分的实验验证, 证明了本文算法相较于过去算法的优越性.
2024, 33(10):190-197. DOI: 10.15888/j.cnki.csa.009656 CSTR: 32024.14.csa.009656
摘要:纵向联邦学习在不泄露数据隐私的前提下, 通过联合多方本地数据特征, 共同训练目标模型, 提高数据利用价值, 受到业界公司和机构的广泛关注. 在训练过程中, 客户端上传的中间嵌入及服务器返回的梯度信息需要巨大的通信量, 通信成本成为限制其实际应用的关键瓶颈. 如何通过有效的算法设计减少通信量、提高通信效率成为当前研究的热点之一. 本文针对纵向联邦学习通信效率问题, 提出基于嵌入和梯度双向压缩的高效压缩算法, 对客户端上传的嵌入表示, 采用改进的稀疏化方法并结合缓存重用机制, 对服务器分发的梯度信息, 采用离散量化与哈夫曼编码结合的机制. 实验结果表明, 本文算法能够在准确率与无压缩场景保持相当的前提下, 降低约85%的通信量, 提高通信效率, 减少整体训练时间.
2024, 33(10):198-204. DOI: 10.15888/j.cnki.csa.009660 CSTR: 32024.14.csa.009660
摘要:有效检测输电线路的破损和异物对电路智能巡检至关重要. 然而, 由于存在着数据孤岛问题, 难以收集不同电力公司的数据来训练统一的检测模型. 因此, 结合迁移联邦学习和目标检测算法提出了一种基于迁移联邦学习的电路缺陷检测方法. 具体地, 首先选用一个强大的检测模型作为基础检测模型, 并冻结模型初始权重. 然后通过权重矩阵的低秩分解以及插入适配器层的方式进行对不同客户端的数据进行适应学习, 从而大幅降低可训练模型参数的目的. 其次, 提出一种权重自适应筛选方法, 以精确确定模型权重层的低秩分解和适配器层的插入位置, 通过简单的适应学习, 即可对不同电力公司中的数据分布进行有效适应. 最后, 在接近真实环境的电力数据集上进行的实验验证表明, 在保证客户数据安全性和隐私性的前提下, 能够很好地适应不同分布的检测场景.
2024, 33(10):205-216. DOI: 10.15888/j.cnki.csa.009657 CSTR: 32024.14.csa.009657
摘要:当前渐进式秘密图像分享方案中并没有考虑不诚实参与者的作弊攻击, 这使得不诚实的参与者可以利用虚假阴影图像进行欺骗攻击. 为了防止后续渐进式重建失败, 本文通过将像素的位平面划分为两部分, 并使用拉格朗日插值算法以及视觉密码学方案来解决这个问题. 通过伪随机数来确定像素位平面的滑动窗口, 并通过筛选操作将认证信息嵌入到该滑动窗口中来实现认证能力. 除此之外, 不同的位平面划分策略可以产生不同的渐进式重建效果, 可以实现更加灵活的渐进式重建. 理论分析和实验结果表明方案的有效性.
2024, 33(10):217-227. DOI: 10.15888/j.cnki.csa.009643 CSTR: 32024.14.csa.009643
摘要:高光谱图像(hyperspectral image, HSI)的窄光谱波段为许多视觉任务提供了丰富信息, 但也给特征提取带来了挑战. 尽管许多研究者提出了各种深度学习方法, 但尚未充分结合这些架构的优势. 因此, 本文提出了一种基于高频信息强化的双分支高光谱图像超分辨率网络(HFEDB-Net), 将卷积神经网络(convolutional neural network, CNN)的图像空间特征提取优势与Transformer的自适应能力和长距离依赖提取优势相结合, 有效地提取了HSI的空间和光谱信息. HFEDB-Net由高频信息强化分支和主干分支组成. 在高频信息强化分支中, 通过拉普拉斯金字塔提取低分辨率和高分辨率HSI的高频信息, 并将结果作为高频分支的输入和标签, 采用光谱强化Transformer来作为该分支的方法. 在主干分支中, 使用结合通道注意力的CNN充分提取空间特征和光谱信息. 最后将两个分支的结果通过CNN进行结合以得到最终的重建图像. 此外, 采用多头注意力和多尺度策略分别改进了Transformer的注意力机制和编码器层, 以更好地提取HSI的空间和光谱信息. 实验结果表明, HFEDB-Net在两个公开数据集上的定量评价指标和视觉效果上优于当前主流方法.
2024, 33(10):228-235. DOI: 10.15888/j.cnki.csa.009665 CSTR: 32024.14.csa.009665
摘要:智能舌诊在协助医生诊断病情方面具有重要意义. 当前, 智能舌诊主要集中在单一舌象特征的预测分类, 难以在诊断过程中提供实质性的帮助. 为弥补这一不足, 从舌象证候层面进行精准的预测分类研究, 协助医生诊断病情. 使用TUNet对舌体进行分割, 并提出融合多注意力机制的平行残差网络PMANet用于舌象证候分类. 在像素准确率、平均交并比和Dice系数3个评价指标上, TUNet分别达到99.7%、98.4%、99.2%, 相较于基线U-Net, 提高了3.2%、9.0%、4.8%. 在舌象证候分类研究中, PMANet的参数总量为12.34M, 略高于对比实验中的EfficientNet, 总浮点计算数为1.021G, 远低于所有对比网络. 在参数量和浮点计算数更少的情况下, 取得了95.7%的分类准确率, 实现了精度、参数量和浮点运算数之间的平衡. 这一方法为智能舌诊研究提供了重要支持, 有望推进中医舌诊现代化进程.
2024, 33(10):236-244. DOI: 10.15888/j.cnki.csa.009664 CSTR: 32024.14.csa.009664
摘要:点云分割是三维视觉引导和场景理解中的关键步骤, 点云分割的质量直接影响三维测量或成像的质量. 为提高分割精度、解决边界越界问题, 本文提出了一种面向3D视觉引导的点云分割算法, 该算法根据点云的空间位置、曲率和法向量信息, 生成初始超体素数据, 并提取边界点; 通过计算边界点与邻域超体素的相似性度量, 进行边界细化, 即重新分配边界点优化超体素; 最后基于区域生长获得候选片段并根据其凹凸性进行合并, 得到对象级分割结果. 经过可视化和定量比较表明, 该算法有效解决了边界越界问题, 能对复杂的点云模型准确分割, 分割结果准确率为89.04%, 召回率为87.38%.
2024, 33(10):245-254. DOI: 10.15888/j.cnki.csa.009607 CSTR: 32024.14.csa.009607
摘要:不平衡数据集中存在噪声和类重叠问题时, 传统分类器性能较低, 导致少数类样本难以被准确分类. 为了提高分类性能, 提出一种基于共享近邻密度峰值聚类和集成过滤机制的不平衡数据处理方法. 该方法首先利用共享近邻密度峰值聚类算法将少数类样本自适应地分为多个簇, 然后根据子簇内密度和大小分配过采样权重; 在子簇内合成时考虑使用样本的局部稀疏度和多类聚集度选择近邻样本以及确定线性插值的权重范围, 避免新样本生成于多数类聚集区域; 最后, 引入集成过滤机制剔除噪声和难以学习的边界样本以规范决策边界和提高生成样本的质量. 与5种过采样方法相比, 本文算法在8个公开数据集上整体表现更优.
2024, 33(10):255-262. DOI: 10.15888/j.cnki.csa.009614 CSTR: 32024.14.csa.009614
摘要:目前, 在多模态情感分析任务上, 存在着单一模态特征提取不充分、数据融合方法缺乏稳定性的问题. 本文提出一种利用插值优化模态特征的方法, 用于解决这些问题. 首先利用插值优化BERT和GRU模型提取特征的方式, 并使用这两种模型挖掘文本、音频、视频的信息. 其次, 用改进的注意力机制融合文本、音频和视频信息, 从而更稳定地实现模态融合. 该方法在MOSI和MOSEI数据集上进行实验. 实验结果表明, 使用插值能够在优化模态特征的基础上, 提高对多模态情感分析任务的准确率, 该结果验证了插值的有效性.
2024, 33(10):263-269. DOI: 10.15888/j.cnki.csa.009654 CSTR: 32024.14.csa.009654
摘要:针对成像设备在夜间或低光环境下拍摄图像出现光照不足、对比度低和信息丢失等问题. 设计基于生成对抗网络(generative adversarial network, GAN)改进的暗图像增强网络RelightGAN, 该网络包含两个判别器和一个生成器, 由两组对抗损失和循环损失共同约束生成器, 使之生成更优异的光照层. 为增强网络训练过程中对图像细节信息的恢复能力, 引入残差网络解决梯度消失问题, 同时引入混合注意力机制CBAM结构, 提升生成器对图像中重要信息和结构的关注度增强网络表达能力. 通过与其他暗图像增强网络增强后的暗图像进行对比, RelightGAN网络增强后的图像, 相较于其他网络峰值信噪比(PSNR)值提高了12.81%, 结构相似度(SSIM)值提高了5.95%. 实验结果表明RelightGAN网络结合了传统算法和神经网络的优点, 实现了暗场景图像的增强, 提高了图像可见度.