PPO与SAC算法在LunarLanderContinuous-v2环境下的性能与样本效率系统对比研究
摘要
深度强化学习领域存在on-policy与off-policy两条技术路线,其中Proximal Policy Optimization(PPO)和Soft Actor-Critic(SAC)分别作为两条路线的代表性算法,各自在连续控制任务中展现出独特优势。本文以Gymnasium Box2D框架下的LunarLanderContinuous-v2环境为基准测试平台,从算法原理出发,系统实现PPO和SAC两种算法,并围绕样本效率、最终性能和训练稳定性三个维度开展对比实验。实验结果表明,PPO算法训练过程表现出更高的稳定性与收敛确定性,而SAC算法则凭借off-policy的经验复用机制获得了显著的样本效率优势。具体而言,SAC在学习效率上相比PPO实现约50%的节省,但PPO最终收敛到更优的策略,测试分数呈现更低的方差。本文详细阐述了两类算法的数学原理、网络架构设计和核心代码实现,并对实验结果进行了深入分析。
关键词:深度强化学习;PPO;SAC;连续控制;样本效率;LunarLander
1 引言
深度强化学习(Deep Reinforcement Learning, Deep RL)近年来在诸多复杂的决策与控制任务中取得了突破性进展,从电子游戏到机器人操作,从自动驾驶到工业自动化,其应用边界不断拓展。然而,尽管Deep RL在学术研究和工业应用中展现出巨大潜力,其落地实践仍面临两大核心