摘要:近年来, 联邦学习(federated learning, FL)作为一种分布式机器学习范式, 因其能够在保护数据隐私的同时实现模型训练, 已在智能医疗、金融服务、物联网以及车联网等领域得到广泛应用. 在车联网(IoV)环境中, 由于节点高度动态和车辆资源的异构性, 并非所有客户端都适合参与联邦训练, 因此高效且鲁棒的客户端选择策略对于模型性能与系统效率至关重要. 然而, 传统FL方法大多依赖静态或启发式的客户端选择机制, 难以适应IoV场景中频繁变化的环境状态与客户端特性. 为此, 本文提出一种基于熵正则化近端策略优化(entropy regularization proximal policy optimization, ERPPO)的动态客户端选择方法, 并结合置信度加权聚合策略. 该方法通过在近端策略优化(proximal policy optimization, PPO)目标函数中引入策略熵正则项, 增强客户端选择策略的探索性, 以避免陷入局部最优. 同时, 置信度聚合机制基于客户端模型更新方差自适应调整聚合权重, 提升全局模型的收敛稳定性与鲁棒性. 实验结果表明, 所提方法在保障模型精度的前提下, 有效降低了通信开销, 并在动态环境下展现出优于传统方法的综合性能.