2022, 31(1):145-151.DOI: 10.15888/j.cnki.csa.008237
摘要:近年来深度强化学习在一系列顺序决策问题中取得了巨大的成功,使其为复杂高维的多智能体系统提供有效优化的决策策略成为可能.然而在复杂的多智能体场景中,现有的多智能体深度强化学习算法不仅收敛速度慢,而且算法的稳定性无法保证.本文提出了基于值分布的多智能体分布式深度确定性策略梯度算法(multi-agent distributed distributional deep deterministic policy gradient,MA-D4PG),将值分布的思想引入到多智能体场景中,保留预期回报完整的分布信息,使智能体能够获得更加稳定有效的学习信号;引入多步回报,提高算法的稳定性;引入了分布式数据生成框架将经验数据生成和网络更新解耦,从而可以充分利用计算资源,加快算法的收敛.实验证明,本文提出的算法在多个连续/离散控制的多智能体场景中均具有更好的稳定性和收敛速度,并且智能体的决策能力也得到了明显的增强.
2021, 30(9):161-170.DOI: 10.15888/j.cnki.csa.008063
摘要:小样本数据存在信息不充足、不完备等问题, 缺乏对总体的代表性, 导致数据驱动的相关算法精度下降. 本文针对小样本问题, 提出基于元学习的生成式对抗网络算法进行小样本数据的数据生成. 该算法目标是在各种数据生成任务上训练, 确定模型最优初始化参数, 从而仅使用较少的训练样本解决新的数据生成任务. 本文利用水冷磁悬浮机组数据进行数据生成, 实验表明, 本算法能够在样本不足的条件下确定最优初始化参数, 降低了对数据集大小的要求. 本文同时进行了真实数据与生成数据混合的故障分类实验, 验证了生成数据具有较好的真实性, 对故障诊断分析具有较大的帮助.
2017, 26(3):126-133.DOI: 10.15888/j.cnki.csa.005662
摘要:字段关联的构建方法是Web数据逼真生成中的困难问题.提出一种基于MIC的字段优先关联的Web数据逼真生成算法.该算法与现有的方法完全不同:首先,提取真实Web日志数据集中相应字段间的MIC系数;然后,结合字段的重尾特性,采用SE分布对字段的重尾性进行建模;最后,建立字段关联模型,模拟出真实数据集中的字段间依赖性,从而逼真生成目标数据集.实验表明,生成的数据集能够保持合理的字段间的均衡性以及节点间的相似性.