2024, 33(5):1-14. DOI: 10.15888/j.cnki.csa.009517 CSTR: 32024.14.csa.009517
摘要:本文提出一种低集群计算资源条件下, 大规模轨迹类数据同时空关系的快速连接查询算法DPCP-CROSS-JOIN. 该算法通过对轨迹数据时间字段进行分段交叉编码和位置网格化等方式对连续的轨迹数据离散化, 并以日期和网格区域编码进行两级分区存储. 通过交叉“等值”连接查询, 实现时空连接查询的三级索引、四级加速, 将$n\cdot n $对象间同时空关系连接查询时间复杂度从O(n2)降为O(nlogn). 在Hadoop集群上使用Hive和TEZ等进行大规模轨迹数据连接查询时能将连接查询效率最高提升到30.66倍. 该算法以时间段编码作为关联条件, 巧妙绕开连接过程中复杂表达式的实时计算, 以“等值”替代复杂表达式计算连接, 提高MapReduce任务并行度, 提升集群存储和计算资源利用率. 在面对仅使用一般优化已几乎无法完成的, 更大规模类似任务, 仍能在数分钟内完成. 实验表明, 该算法具有高效和稳定等特性, 尤其适用低“算力”资源条件下大规模轨迹数据的同时空关系连接查询. 此方法还可作为时空轨迹伴随查找, 对象间关系亲密度判定等的原子算法, 可广泛应用于维护国家安全、社会治安秩序, 预防和打击犯罪, 辅助城乡规划统筹等领域.
2024, 33(5):15-27. DOI: 10.15888/j.cnki.csa.009512 CSTR: 32024.14.csa.009512
摘要:航拍高分辨率图像的场景类别多且类间相似度高, 经典的基于深度学习的分类方法, 由于在提取特征过程中会产生冗余浮点运算, 运行效率较低, FasterNet通过部分卷积提高了运行效率但会降低模型的特征提取能力, 从而降低模型的分类精度. 针对上述问题, 提出了一种融合FasterNet和注意力机制的混合结构分类方法. 首先采用“十字型卷积模块”对场景特征进行部分提取, 以提高模型运行效率. 然后采用坐标注意力与通道注意力相融合的双分支注意力机制, 以增强模型对于特征的提取能力. 最后将“十字型卷积模块”与双分支注意力模块之间进行残差连接, 使网络能训练到更多与任务相关的特征, 从而在提高分类精度的同时, 减小运行代价, 提高运行效率. 实验结果表明, 与现有基于深度学习的分类模型相比, 所提出的方法, 推理时间短而且准确率高, 参数量为19M, 平均一张图像的推理时间为7.1 ms, 在公开的数据集NWPU-RESISC45、EuroSAT、VArcGIS (10%)和VArcGIS (20%)的分类精度分别为96.12%、98.64%、95.42%和97.87%, 与FasterNet相比分别提升了2.06%、0.77%、1.34%和0.65%.
2024, 33(5):28-36. DOI: 10.15888/j.cnki.csa.009504 CSTR: 32024.14.csa.009504
摘要:网络连接数据的统计推断问题已成为近年来统计学研究的热点问题. 传统模型中样本数据间的独立性假设通常不能满足现代网络连接数据的分析需求. 本文研究了网络连接数据中每个节点的独立效应, 并借助融合惩罚的思想, 使得相互连接节点的独立效应趋同. 同时借助仿变量方法(Knockoff)仿冒原始变量的数据依赖结构、构造与目标变量无关的属性特征, 提出了针对网络连接数据进行变量选择的仿变量方法(NLKF). 从理论上证明了NLKF方法将变量选择的错误发现率(FDR)控制在目标水平. 对于原始数据协方差未知的情形, 使用估计的协方差矩阵仍具有上述良好的统计性质. 通过与传统变量选择方法Lasso对比, 说明了本文方法的可靠性. 最后结合因子投资领域2022年1–12月中国A股市场4000只股票的200个因子数据及每只股票所属申万一级行业构造的网络关系, 给出模型的应用实例.
2024, 33(5):37-46. DOI: 10.15888/j.cnki.csa.009482 CSTR: 32024.14.csa.009482
摘要:光学相干断层成像(optical coherence tomography, OCT)是一种具有无接触、高分辨率等特点的新型眼科医学诊断方法, 现在已经作为医生临床诊断眼科疾病的重要参考物, 但人工分类疾病费时费力, 视网膜病变的早期发现和临床诊断至关重要. 为了解决该类问题, 本文提出了一种基于改进MobileNetV2神经网络对视网膜OCT图像多分类识别方法. 此方法利用特征融合技术处理图像并设计增加注意力机制改进网络模型, 二者在极大程度上提高OCT图像的分类准确率. 与原有算法相比, 分类效果具有明显提升, 本文模型的分类准确率、召回值、精确度、F1值分别达到98.3%、98.44%、98.94%、98.69%, 已经超越人工分类的准确率. 此类方法不仅在实际诊断中加快诊断流程、降低医生负担、提高诊断质量, 同时也为眼科医疗研究提供新的方向.
2024, 33(5):47-56. DOI: 10.15888/j.cnki.csa.009490 CSTR: 32024.14.csa.009490
摘要:针对负荷数据复杂性、非平稳性以及负荷预测误差较大等问题, 提出一种综合特征构建和模型优化的短期电力负荷预测新方法. 首先采用最大信息系数(MIC)分析特征变量的相关性, 选取与电力负荷序列相关的特征变量, 同时, 考虑变分模态分解(VMD)方法容易受主观因素的影响, 采用霜冰优化算法(RIME)优化VMD, 完成原始电力负荷序列的分解. 然后改进长短期时间序列网络(LSTNet)作为预测模型, 将其递归层LSTM更新为BiLSTM, 并引入卷积块注意力机制(CBAM)进行预测. 通过对比实验和消融实验的结果表明: 经RIME-VMD优化后, LSTM、GRU、LSTNet模型预测的均方根误差(RMSE)均降低20%以上, 显著提高模型预测精度, 且能够适应于不同预测模型. 所提出的BLSTNet-CBAM模型与LSTM、GRU、LSTNet相比, RMSE分别降低了35.54%、6.78%、1.46%, 提高了短期电力负荷预测的准确性.
2024, 33(5):57-66. DOI: 10.15888/j.cnki.csa.009483 CSTR: 32024.14.csa.009483
摘要:为了解决会话推荐系统中数据稀疏性问题, 提出了一种基于注意力机制的自监督图卷积会话推荐模型(self-supervised graph convolution session recommendation based on attention mechanism, ATSGCN). 该模型将会话序列构建成3个不同的视图: 超图视图、项目视图和会话视图, 显示会话的高阶和低阶连接关系; 其次, 超图视图使用超图卷积网络来捕获会话中项目之间的高阶成对关系, 项目视图和会话视图分别使用图卷积网络和注意力机制来捕获项目和会话级别局部数据中的低阶连接信息; 最后, 通过自监督学习使两个编码器学习到的会话表示之间的互信息最大化, 从而有效提升推荐性能. 在Nowplaying和Diginetica两个公开数据集上进行对比实验, 实验结果表明, 所提模型性能优于基线模型.
2024, 33(5):67-75. DOI: 10.15888/j.cnki.csa.009502 CSTR: 32024.14.csa.009502
摘要:先前基于深度学习进行临近降水预报的方法试图在统一架构中建模雷达回波的时空演变, 然而, 这些方法可能难以完全捕捉到这种复杂的时空关系. 本文提出了一种基于Halo注意力机制的双阶段临近降水预报网络, 该网络将降水预测的时空演变过程分为运动趋势预测和空间外观重建两个阶段. 首先, 可学习光流模块对雷达回波的运动趋势进行建模并生成粗略的预测结果. 其次, 特征重建模块对历史雷达回波序列的空间外观变化建模并对粗粒度预测结果的空间外观进行特征细化重建, 生成精细的雷达回波图. 通过在CIKM数据集上的实验表明, 本文所提出的方法与主流方法相比, 平均的海德克技能得分和关键成功指数分别提高了4.60%和3.63%, 达到了0.48和0.45; 结构相似性提高了4.84%, 达0.52; 均方误差降低了6.13%, 达70.23.
2024, 33(5):76-84. DOI: 10.15888/j.cnki.csa.009500 CSTR: 32024.14.csa.009500
摘要:GSNet使用抓取度区分杂乱场景的可抓取区域, 显著地提高了杂乱场景中机器人抓取位姿检测准确性, 但是GSNet仅使用一个固定大小的圆柱体来确定抓取位姿参数, 而忽略了不同大小尺度的特征对抓取位姿估计的影响. 针对这一问题, 本文提出了一个多尺度圆柱体注意力特征融合模块(Ms-CAFF), 包含注意力融合模块和门控单元两个核心模块, 替代了GSNet中原始的特征提取方法, 使用注意力机制有效地融合4个不同大小圆柱体空间内部的几何特征, 从而增强了网络对不同尺度几何特征的感知能力. 在大规模杂乱场景抓取位姿检测数据集GraspNet-1Billion的实验结果表明, 在引入模块后将网络生成抓取位姿的精度最多提高了10.30%和6.65%. 同时本文将网络应用于实际实验, 验证了方法在真实场景当中的有效性.
2024, 33(5):85-93. DOI: 10.15888/j.cnki.csa.009506 CSTR: 32024.14.csa.009506
摘要:针对工业场景下带钢表面缺陷样本少、缺陷尺寸大小不一等问题, 提出一种适用于小样本条件下的带钢表面缺陷检测网络. 首先, 算法以YOLOv5s框架为基础, 设计一种融合注意力机制的多尺度路径聚合网络作为模型的颈部, 增强模型对缺陷目标的多尺度预测能力; 其次, 提出一种自适应解耦检测结构, 缓解小样本情况下分类和定位任务之间的矛盾; 最后, 提出一种融合Wasserstein距离的边界框回归损失函数, 提升模型对小目标缺陷的检测精度. 实验表明, 在构建的小样本带钢表面缺陷数据集上, 本文模型的检测性能优于其他小样本检测模型, 更适用于工业环境下的小样本缺陷检测任务.
2024, 33(5):94-102. DOI: 10.15888/j.cnki.csa.009513 CSTR: 32024.14.csa.009513
摘要:为了解决在街道场景图像语义分割任务中传统U-Net网络在多尺度类别下目标分割的准确率较低和图像上下文特征的关联性较差等问题, 提出一种改进U-Net的语义分割网络AS-UNet, 实现对街道场景图像的精确分割. 首先, 在U-Net网络中融入空间通道挤压激励(spatial and channel squeeze & excitation block, scSE)注意力机制模块, 在通道和空间两个维度来引导卷积神经网络关注与分割任务相关的语义类别, 以提取更多有效的语义信息; 其次, 为了获取图像的全局上下文信息, 聚合多尺度特征图来进行特征增强, 将空洞空间金字塔池化(atrous spatial pyramid pooling, ASPP)多尺度特征融合模块嵌入到U-Net网络中; 最后, 通过组合使用交叉熵损失函数和Dice损失函数来解决街道场景目标类别不平衡的问题, 进一步提升分割的准确性.实验结果表明, 在街道场景Cityscapes数据集和CamVid数据集上AS-UNet网络模型的平均交并比(mean intersection over union, MIoU)相较于传统U-Net网络分别提高了3.9%和3.0%, 改进的网络模型显著提升了对街道场景图像的分割效果.
2024, 33(5):103-109. DOI: 10.15888/j.cnki.csa.009493 CSTR: 32024.14.csa.009493
摘要:针对传统工业管道腐蚀率预测模型存在特征提取依赖人工经验和泛化能力不足的问题, 本文将卷积神经网络(convolutional neural network, CNN)和长短期记忆网络(long short-term memory, LSTM)相结合, 提出了基于布谷鸟优化算法(cuckoo search, CS)的CNN-LSTM-CS网络模型, 实现对工业管道腐蚀率预测. 首先, 对采集的管道腐蚀数据集进行归一化预处理; 然后, 利用CNN网络提取影响管道腐蚀率因素的深层次特征信息, 并通过训练LSTM网络构建CNN-LSTM预测模型; 最后, 采用CS算法对预测模型进行参数优化, 减少预测误差, 实现腐蚀率的精准预测. 实验结果表明, 对比几种典型的腐蚀率预测方法, 本文提出的方法具有更高的预测精度, 为工业管道腐蚀率检测提供新的思路.
2024, 33(5):110-117. DOI: 10.15888/j.cnki.csa.009510 CSTR: 32024.14.csa.009510
摘要:卷积神经网络(CNN)作为医学图像分割领域中U-Net基线网络的重要组成部分, 其主要作用是处理局部特征信息之间的关系. 而Transformer是一种能够有效强化特征信息之间的远距离依赖关系的视觉模型. 目前的研究表明, 结合Transformer和CNN可以在一定程度上提高医学图像分割的准确性. 但是, 由于医学图像的标注数据较少, 而且训练Transformer模型需要大量数据, 这使得Transformer模型面临耗时长和参数量大的挑战. 基于这些考虑, 本文在UNeXt模型的基础上, 结合多尺度混合MLP和CNN, 提出了一种新型的基于混合MLP的医学图像分割模型——LM-UNet. 这种模型能够有效地增强局部与全局信息之间的联系, 并加强特征信息间的融合. 在多个数据集上的实验表明, LM-UNet模型在皮肤数据集上的分割性能明显提升, 平均Dice系数达到92.58%, 平均IoU系数达到86.52%, 分别比UNeXt模型提高了3%和3.5%. 在软骨和乳腺数据集上的分割效果也有显著提升, 平均Dice系数分别比UNeXt提高了2.5%和1.0%. 因此, LM-UNet模型不仅提高了医学图像分割的准确性, 还增强了其泛化能力.
2024, 33(5):118-126. DOI: 10.15888/j.cnki.csa.009499 CSTR: 32024.14.csa.009499
摘要:准确预测风电功率对于提高电力系统的效率和安全性具有重要意义, 而风能的间歇性和随机性特点导致风电功率难以准确预测. 因此, 提出一种改进Informer的风电功率预测模型PCI-Informer (PATCH-CNN-IRFFN-Informer). 将序列数据划分为子序列级补丁, 并进行特征提取和整合, 提高模型对序列数据的处理能力和效果; 采用多尺度因果卷积自注意力机制, 实现多尺度局部特征融合, 提高模型对局部信息的理解和建模能力; 引入反向残差前馈网络 (IRFFN), 增强模型对局部结构信息的提取和保留能力. 某风电场数据实验结果表明, 与主流预测模型相比, PCI-Informer模型在不同预测步长下均取得了更好的预测效果, 在MAE指标上相比Informer模型平均降低了11.1%, 有效提高了短期风电功率的预测精度.
2024, 33(5):127-135. DOI: 10.15888/j.cnki.csa.009484 CSTR: 32024.14.csa.009484
摘要:时空预测任务在污染治理、交通、能源、气象等领域应用广泛. PM2.5浓度预测作为典型的时空预测任务, 需要对空气质量数据中的时空依赖关系进行分析和利用. 现有时空图神经网络(ST-GNNs)研究所使用的邻接矩阵使用启发式规则预定义, 无法准确表示站点之间的真实关系. 本文提出了一种自适应分层图卷积神经网络(AHGCNN)用于PM2.5预测. 首先, 引入了一种分层映射图卷积架构, 在不同层级上使用不同的自学习邻接矩阵, 以有效挖掘不同站点之间独特的时空依赖. 其次, 以基于注意力的聚合机制连接上下层邻接矩阵, 加速收敛过程. 最后, 将隐藏的空间状态与门控循环单元相结合, 形成一个统一的预测架构, 同时捕捉多层次的空间依赖关系和时间依赖关系, 提供最终的预测结果. 实验中, 我们与7种主流预测模型进行对比, 结果表明该模型可以有效获取空气监测站点之间的时空依赖, 提高预测精确度.
2024, 33(5):136-143. DOI: 10.15888/j.cnki.csa.009497 CSTR: 32024.14.csa.009497
摘要:在短文本意图识别领域, 卷积神经网络(CNN)因其在局部信息提取方面的优异性能而备受关注. 然而, 由于其难以捕捉短文本语料的全局特征, 因此存在一定局限性. 针对该问题, 本文结合TextCNN和BiGRU-att的优点提出一个双通道短文本意图识别模型, 利用局部特征和全局特征更好地识别短文本的意图, 弥补模型对文本整体特征的不足. AB-CNN-BGRU-att模型首先利用ALBERT多层双向Transformer结构对输入的文本向量化, 再将向量分别送入TextCNN和BiGRU网络模型以获取局部和全局特征. 将这两种特征进行融合, 并通过全连接层并输入Softmax函数得到意图标签. 实验结果表明, 在THUCNews_Title数据集上, 本文提出的AB-CNN-BGRU-att算法准确率(Acc)达到了96.68%, F1值达到了96.67%, 相较于其他常用意图识别模型表现出更佳的性能.
2024, 33(5):144-153. DOI: 10.15888/j.cnki.csa.009471 CSTR: 32024.14.csa.009471
摘要:当前无人机图像中存在小目标数量众多、背景复杂的特点, 目标检测中易造成漏检误检率较高的问题, 针对这些问题, 提出一种高阶深度可分离无人机图像小目标检测算法. 首先, 结合CSPNet结构与ConvMixer网络, 深度可分离卷积核, 获取梯度结合信息, 并引入递归门控卷积C3模块, 提升模型的高阶空间交互能力, 增强网络对小目标的敏感度; 其次, 检测头采用两个头部进行解耦, 分别输出特征图分类和位置信息, 加快模型收敛速度; 最后, 使用边框损失函数EIoU, 提高检测框精准度. 在VisDrone2019数据集上的实验结果表明, 该模型检测精度达到了35.1%, 模型漏检率和误检率有明显下降, 能够有效地应用于无人机图像小目标检测任务. 在DOTA 1.0数据集和HRSID数据集上进行模型泛化能力测试, 实验结果表明, 该模型具有良好的鲁棒性.
2024, 33(5):154-161. DOI: 10.15888/j.cnki.csa.009489 CSTR: 32024.14.csa.009489
摘要:联邦学习系统中, 在资源受限的边缘端进行本地模型训练存在一定的挑战. 计算、存储、能耗等方面的限制时刻影响着模型规模及效果. 传统的联邦剪枝方法在联邦训练过程中对模型进行剪裁, 但仍存在无法根据模型所处环境自适应修剪以及移除一些重要参数导致模型性能下降的情况. 本文提出基于联邦强化学习的分布式模型剪枝方法以解决此问题. 首先, 将模型剪枝过程抽象化, 建立马尔可夫决策过程, 使用DQN算法构建通用强化剪枝模型, 动态调整剪枝率, 提高模型的泛化性能. 其次设计针对稀疏模型的聚合方法, 辅助强化泛化剪枝方法, 更好地优化模型结构, 降低模型的复杂度. 最后, 在多个公开数据集上将本方法与不同基线方法进行比较. 实验结果表明, 本文所提出的方法在保持模型效果的同时减少模型复杂度.
2024, 33(5):162-169. DOI: 10.15888/j.cnki.csa.009505 CSTR: 32024.14.csa.009505
摘要:脉冲神经网络作为人工智能发展的重要方向之一, 在神经形态工程和类脑计算领域得到了广泛的关注. 为解决脉冲神经网络泛化性差、内存和时间消耗较大等问题, 本文提出了一种基于脉冲神经网络的时空交互图像分类方法. 首先引入时间有效训练算法弥补梯度下降过程中的动能损失; 其次融合空间随时间学习算法, 提高网络对信息的高效处理能力; 最后添加空间注意力机制, 增强网络对空间维度上重要特征的捕捉能力. 实验结果表明, 改进后的方法在CIFAR10、DVS Gesture、CIFAR10-DVS这3个数据集上的训练内存占用分别减少了46.68%、48.52%、10.46%, 训练速度分别提升了2.80倍、1.31倍、2.76倍, 在保证精度的情况下, 网络性能得到有效提升.
2024, 33(5):170-177. DOI: 10.15888/j.cnki.csa.009515 CSTR: 32024.14.csa.009515
摘要:针对现有的图像质量评价方法较少利用人眼视网膜和视觉皮层的颜色编码机制, 并且未能充分考虑图像色彩信息对图像质量的影响, 提出了一种基于多视觉特征的可见光(微光)与红外彩色融合图像色彩和谐性客观评价模型. 该模型在图像质量评估中融入了更多的颜色信息, 综合考虑多种人眼视觉特征包括视觉对立色彩特征、色彩信息波动特征和高级视觉内容特征, 经过特征融合和支持向量回归训练, 实现彩色融合图像的色彩和谐性客观评价. 采用3种典型场景融合图像数据库进行实验比较与分析. 实验结果表明, 与现有的8种图像质量客观评价方法相比, 所提出的方法与人眼主观感受更加一致, 具有较高的预测准确度.
2024, 33(5):178-186. DOI: 10.15888/j.cnki.csa.009516 CSTR: 32024.14.csa.009516
摘要:网络功能虚拟化技术的兴起使得实例化为服务功能链(SFC)的网络服务能够共享基底网络, 缓解了传统网络体系结构僵化的问题. 然而, 网络中大量服务请求给多域SFC编排带来了新的挑战. 首先由于域内网络资源信息及内部策略的保密性, 使得多域SFC的编排更为复杂. 其次多域SFC编排要确定最佳候选编排域集, 先前的研究较少考虑域间负载的均衡性, 对服务接受率造成了消极影响. 此外跨网络域编排服务请求对服务的成本和响应时间提出了更严格的要求. 为解决上述挑战, 在本文中, 我们首先针对多域网络隐私性需求, 提出了域级图的构造方法; 然后基于域间负载均衡提出了域权重的计算方法进行SFC编排域的选择; 最后, 针对多域网络成本和响应时间需求, 提出编排算法. 实验结果表明, 提出的算法有效地权衡了平均服务成本和接受率, 并且在服务平均响应时间方面也得到了优化.
2024, 33(5):187-194. DOI: 10.15888/j.cnki.csa.009485 CSTR: 32024.14.csa.009485
摘要:不同于基于外形的步态识别方法, 基于关键点的步态识别方法采取人体关键点作为模型的输入, 能够有效避免数据集带来的背景噪声干扰; 其次, 现有的基于关键点的步态识别方法忽略了人体结构先验知识的利用, 且更倾向于提取局部特征, 从而忽略了全局上的关联性. 本文提出了一个基于关键点的步态识别框架GaitBody, 能够从步态关键点序列中提取更有分辨性的特征. 首先, 我们设计了带有较大卷积核的多尺度卷积模块来提取多粒度的时序特征; 其次, 我们利用自注意力机制来提取空间特征, 并在此基础上引入了人体结构拓扑信息来进一步利用人体结构的先验知识; 最后, 为了更好使用时序信息, 我们生成最有代表性的时序特征, 并将其引入到自注意模块来融合时序和空间特征. 在CASIA-B和OUMVLP-Pose数据集上的实验结果表明, 我们的方法在基于关键点的步态识别方法上取得了最优结果, 消融实验也证明了各个模块的有效性.
2024, 33(5):195-202. DOI: 10.15888/j.cnki.csa.009496 CSTR: 32024.14.csa.009496
摘要:MonteCloPi算法是一种基于蒙特卡洛树搜索(Monte Carlo tree search, MCTS)的任意时间子群发现算法, 旨在使用MCTS策略构建非对称的最佳优先搜索树来发现高质量的多样性模式集, 但是限制了目标为二值变量. 为此, 本文结合了数值目标的特点, 通过为置信度上界(upper confidence bound, UCB)公式选取合适的C值、动态调整各个样本的拓展权重并对搜索树进行剪枝、使用自适应top-k均值更新策略, 将MonteCloPi算法拓展到了数值目标. 最后, 在 UCI 数据集、全国健康与营养调查(national health and nutrition examination survey, NHANES)听力测试数据集上的实验结果表明本文的算法相比其他算法可以发现更高质量的多样性模式集, 并且最优子群的可解释性也更好.
2024, 33(5):203-209. DOI: 10.15888/j.cnki.csa.009518 CSTR: 32024.14.csa.009518
摘要:合成孔径雷达(SAR)图像为土地覆盖分类提供了重要的时序数据源. 现有的时间序列匹配算法可以充分挖掘时序特征的相似性信息, 从而获得较好的分类效果. 本文引入了综合考虑形状相似性和物候差异的经典时序匹配算法TWDTW (time weighted dynamic time warping)指导SAR土地覆盖分类, 并针对传统TWDTW仅考虑单一特征时间序列上的相似性匹配问题, 提出了一种基于多特征联合的时间加权动态时间规整算法(Mult-TWDTW). 该方法首先提取后向散射系数、干涉相干性以及双极化雷达植被指数(dual polarization radar vegetation Index, DpRVI) 这3种特征, 然后在TWDTW算法基础上联合多个特征设计了Mult-TWDTW模型. 为验证所提方法的有效性, 使用Sentinel-1A时序数据在丹江口区域完成土地覆盖分类, 并将Mult-TWDTW与MLP、1D-CNN、K-means、SVM和使用单特征的TWDTW算法进行对比. 实验结果显示, Mult-TWDTW算法得到了最好的分类效果, 总体精度和Kappa系数可以达到95.09%和91.76, 表明Mult-TWDTW算法有效联合了多个特征信息, 能够提升时序匹配算法在多种土地覆盖类别分类中的潜力.
2024, 33(5):210-217. DOI: 10.15888/j.cnki.csa.009508 CSTR: 32024.14.csa.009508
摘要:抽象神经网络在文本摘要领域取得了长足进步, 展示了令人瞩目的成就. 然而, 由于抽象摘要的灵活性, 它很容易造成生成的摘要忠实性差的问题, 甚至偏离源文档的语义主旨. 针对这一问题, 本文提出了两种方法来提高摘要的保真度. (1)由于实体在摘要中起着重要作用, 而且通常来自于原始文档, 因此本文提出允许模型从源文档中复制实体, 确保生成的实体与源文档中的实体相匹配, 这有助于防止生成不一致的实体. (2)为了更好地防止生成的摘要与原文产生语义偏离, 本文在摘要生成过程中使用关键实体和关键token作为两种不同粒度的指导信息以指导摘要的生成. 本文使用 ROUGE指标在两个广泛使用的文本摘要数据集CNNDM和XSum上评估了本文方法的性能, 实验结果表明, 这两种方法在提高模型性能方面都取得了显著的效果. 此外, 实验还证明了实体复制机制可以在一定程度上借助指导信息以纠正引入的语义噪声.
2024, 33(5):218-227. DOI: 10.15888/j.cnki.csa.009494 CSTR: 32024.14.csa.009494
摘要:在同伴互评过程中, 评估者会因为战略性评估而导致评估分数不准确. 本文考虑了评估者之间的社交利益关系, 提出了一种融合社交利益与图注意力网络的同伴互评分数预测方法GAT-SIROAN. 该方法由表示评估者与解决方案关系的加权网络SIROAN以及用来预测同伴互评分数的图注意力网络GAT构成. 在SIROAN中使用ITSA方法定义了评估者的两个特征: 自我评分能力和同伴评分能力, 并通过比较这两个特征来获取评估者之间的社交利益因子和关系. 在分数预测环节, 为了考虑每个节点的重要性, 使用自注意力机制来计算节点的注意力系数, 以此来提高预测能力. 采用最小化其均方根误差来学习网络的参数, 从而获取更准确的同伴互评预测分数. GAT-SIROAN在真实数据集上与平均值、中位数、PeerRank、RankwithTA以及GCN-SOAN这5个基线方法进行了对比实验, 结果表明GAT-SIROAN在RMSE指标上均优于基线方法.
2024, 33(5):228-238. DOI: 10.15888/j.cnki.csa.009511 CSTR: 32024.14.csa.009511
摘要:在联邦学习环境中选取适宜的优化器是提高模型性能的有效途径, 尤其在数据高度异构的情况下. 本文选取FedAvg算法与FedALA算法作为主要研究对象, 并提出其改进算法pFedALA. pFedALA通过令客户端在等待期间继续本地训练, 有效降低了由于同步需求导致的资源浪费. 在此基础上, 本文重点分析这3种算法中优化器的作用, 通过在MNIST和CIFAR-10数据集上测试, 比较了SGD、Adam、ASGD以及AdaGrad等多种优化器在处理非独立同分布(Non-IID)、数据不平衡时的性能. 其中重点关注了基于狄利克雷分布的实用异构以及极端的异构数据设置. 实验结果表明: 1) pFedALA算法呈现出比FedALA算法更优的性能, 表现为其平均测试准确率较FedALA提升约1%; 2)传统单机深度学习环境中的优化器在联邦学习环境中表现存在显著差异, 与其他主流优化器相比, SGD、ASGD与AdaGrad优化器在联邦学习环境中展现出更强的适应性和鲁棒性.
2024, 33(5):239-245. DOI: 10.15888/j.cnki.csa.009487 CSTR: 32024.14.csa.009487
摘要:针对现有孪生网络目标跟踪技术只对模板特征和搜索特征进行一次融合操作, 使得融合特征图上的目标特征相对粗糙, 不利于跟踪器精确跟踪定位的问题, 本文设计了一个串联互相关模块, 旨在利用现有的互相关方法, 对模板特征和搜索特征做多次的互相关操作增强融合特征图上的目标特征, 提升后续分类和回归结果的准确性, 以更少的参数实现速度和精度之间的平衡. 实验结果表明, 所提出的方法在4个主流跟踪数据集上都取得了很好的结果.
2024, 33(5):246-253. DOI: 10.15888/j.cnki.csa.009488 CSTR: 32024.14.csa.009488
摘要:本研究致力于深入探讨社交网络中舆论形成的复杂过程, 尤其是关注去中心化环境下达成共识的机制. 研究提出了一种新的意见分类策略, 即第二置信区间. 该策略旨在对传统DeGroot共识模型进行改进, 从而发展出两种不同的意见动态模型: FAI模型和ORA模型. 这些模型综合考虑了个体对周围意见的接受程度和重视程度, 并通过对社交网络中邻域意见的深入分析, 对个体模型进行了全面设置, 涵盖私人意见、表达意见、固执度以及偏好等多重因素. 研究结果表明, 在特定参数设定下, FAI模型和ORA模型均能比原DeGroot模型更加迅速地达成共识. 具体来说, ORA模型的收敛速度在700步长左右, 而FAI模型的收敛速度随参数值的增加而逐步接近ORA模型. 相较于基准模型, ORA模型在收敛意见值上的差异较小, 不超过3.5%, 而FAI模型则显示出更大的波动性. 这些发现不仅加深了对于社交网络中公共意见形成机制的理解, 也强调了个体邻域内意见动力学在共识形成过程中的重要性, 为此领域的未来研究提供了新的视角和研究方向.
2024, 33(5):254-261. DOI: 10.15888/j.cnki.csa.009495 CSTR: 32024.14.csa.009495
摘要:本文针对多房间的移动机器人内墙作业的路径规划任务, 提出一种两阶段路径规划方法. 第1阶段针对沿墙作业过程中环境存在灰尘或雾气造成的传感器失效问题, 以及房间多出口时路径规划不完整问题, 我们提出起点自动选择沿墙路径规划方法, 基于栅格地图离线生成沿墙规划路径. 第2阶段, 针对点到点路径规划过程中的动态避障问题, 我们提出一种基于PSAC (prioritized experience replay soft actor critic)算法的点到点路径规划方法, 在软行动者-评论家(soft actor critic, SAC)的中引入优先级经验回放策略, 实现机器人的动态避障. 实验部分设计了沿墙路径规划对比实验和动态避障的对比实验, 验证本文所提出的方法在室内沿墙路径规划和点到点路径规划的有效性.
2024, 33(5):262-270. DOI: 10.15888/j.cnki.csa.009498 CSTR: 32024.14.csa.009498
摘要:本文针对永磁同步电机(PMSM)在工业领域中的多变量、非线性和强耦合特性以及传统PID控制在应对其变化时可能导致参数调整困难、响应延迟、鲁棒性差以及适应性问题, 提出一种结合双延迟深度确定性策略梯度(TD3)算法和PID控制的创新方案, 以优化PID参数调整, 实现更精确的电机速度控制. 在本文的方法中, 融合双向长短期记忆网络(BiLSTM)到Actor和Critic网络中, 极大增强了对PMSM动态行为的时间序列数据处理能力, 使得系统不仅能够准确捕捉当前状态, 还能预测未来趋势, 从而实现对PID参数更精确和适应性强的自整定. 此外, 通过整合熵正则化和好奇心驱动的探索方法进一步增强策略的多样性, 避免过早收敛到次优策略, 并鼓励模型对未知环境进行深入探索. 为验证方法的有效性, 设计了一个永磁同步电机的仿真模型, 并将本文提出的方法BiLSTM-TD3-ICE与传统的TD3以及经典的Ziegler-Nichols (Z-N)方法进行对比. 实验结果充分证明了本文提出的策略在控制性能上具有显著的优势.
2024, 33(5):271-279. DOI: 10.15888/j.cnki.csa.009519 CSTR: 32024.14.csa.009519
摘要:在数字化的时代里, 越来越多人偏爱在电商平台购物, 随着农产品电商平台的发展, 消费者面对众多选择时难以找到适合自己的产品. 为了提高用户满意度和购买意愿, 农产品电商平台需要根据用户的兴趣偏好向其推荐合适的农产品. 考虑到季节、地域、用户兴趣和农产品属性等多种农业特征, 通过特征交互可以更好地捕捉用户需求. 传统的点击通过率CTR (click through rate)预测模型只关注用户评分, 以简单的方式计算特征交互, 而忽略了特征交互的重要性. 本文提出了一种名为细粒度特征交互选择网络FgFisNet (fine-grained feature interaction selection networks)的新模型. 该模型通过引入细粒度交互层和特征交互选择层, 组合内积和哈达玛积有效地学习特征交互, 然后在训练过程中自动识别重要的特征交互, 并删除冗余的特征交互, 最后将重要的特征交互和一阶特征输入到深度神经网络, 得到最终的CTR预测值. 在农产品电商真实数据集上进行广泛的实验, FgFisNet方法取得了显著的经济效益.
2024, 33(5):280-287. DOI: 10.15888/j.cnki.csa.009492 CSTR: 32024.14.csa.009492
摘要:在当前视频多模态情感分析研究中, 存在着未充分考虑模态之间的动态独立性和模态融合缺乏信息流控制的问题. 为解决这些问题, 本文提出了一种结合模态表征学习的多模态情感分析模型. 首先, 通过使用BERT和LSTM分别挖掘文本、音频和视频的内在信息, 其次, 引入模态表征学习, 以获得更具信息丰富性的单模态特征. 在模态融合阶段, 融合了门控机制, 对传统的Transformer融合机制进行改进, 以更精确地控制信息流. 在公开数据集CMU-MOSI和CMU-MOSEI的实验结果表明, 与传统模型相比, 准确性和F1分数都有所提升, 验证了模型的有效性.