news 2026/6/25 13:35:07

深度强化学习与控制-1

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
深度强化学习与控制-1

1.1 引言

在强化学习框架下,智能系统通过与环境持续互动来优化决策过程。具体而言,系统首先感知当前环境状态,基于此作出行为选择,随后将该行为作用于环境。环境对此作出响应,产生状态转移并反馈相应的奖励或惩罚收益信号。学习系统的核心目标是通过不断试错,寻找能够使长期累计收益最大化的最优决策序列。这一过程本质上是基于马尔可夫决策过程的序贯优化问题,其中智能体需要平衡即时回报与长远收益的关系。

深度强化学习将强化学习的决策能力和深度网络的学习能力相结合,能够直接从声音、图像等高维数据中学习策略,无需依赖人工特征提取。它通过端到端的训练方式,将输入直接映射到动作,减少了传统分阶段处理中的信息损失,从而提升任务执行效率。在动态、不确定的环境中,深度强化学习能够通过试错机制不断调整策略,适应环境变化并优化长期目标。深度强化学习的应用范围广泛,涵盖游戏AI、自动驾驶、金融交易和医疗诊断等领域,展现出超越传统方法的性能。随着数据积累和模型迭代,深度强化学习策略可以持续自我优化,适用于长期部署的智能系统。总体而言,深度强化学习凭借其自动化、高适应性和强泛化能力,成为人工智能领域的前沿方向。

本章主要介绍强化学习基础算法及其发展过程,分别阐述其优势与不足,进而针对强化学习中的奖励稀疏问题介绍事后经验回放Hindsight experience replay,HER)算法。

1.2 马尔可夫决策过程

(1)马尔可夫性质

在随机过程理论中,若某时刻的系统状态仅由其前一时刻的状态决定,而与更早的历史状态无关,则称该过程具有马尔可夫特性。

(2)马尔可夫过程

在概率论中,满足马尔可夫特性的随机系统被称为马尔可夫过程,亦可称作马尔可夫链。这类随机系统通常采用元组<S,P>形式进行数学描述,其中S表示系统可能处于的状态所构成的有限集合,P为状态转移概率矩阵,该矩阵精确刻画了系统从任意当前状态转移到其他状态的可能性大小。其数学表达式如(2-2)所示:

1、智能体观测当前环境状态

2、根据既定策略:S→A选择执行动作

3、环境反馈新状态和即时奖励

4、智能体通过优化策略来最大化期望的长期折现回报

其中,策略定义了状态到动作的映射规则,是智能体决策的核心机制。整个过程体现了序贯决策问题的典型特征。

图2-1 强化学习交互示意图

(4)策略

对于有限空间的MDP,必然存在至少一个策略pai不差于其他所有策略。称其为最优策略,其对应的状态价值函数具有唯一性,其数学表达式如(2-9)所示:

该关系式表明,最优动作价值由即时奖励和后续最优状态价值的折现期望共同决定。值得注意的是,这一结构形式与普通策略下的价值函数关系具有一致性,但区别在于所有项都采用了最优策略下的取值。进一步地,最优状态价值函数可表示为式(2-12)所示:

这一等式说明,最优状态价值等于该状态下所有可能动作对应Q值的最大值。基于这两个基本关系,可以推导出贝尔曼最优性方程的两个等价形式,见式(2-13)和(2-14):

(9)蒙特卡洛方法

蒙特卡洛方法是一种基于统计估计和随机采样的数值计算技术。该方法的核心思想是通过大量重复的随机实验,利用大数定律对目标量进行概率逼近。具体实现过程包含以下关键步骤:

1、随机采样:基于给定概率分布生成大量样本

2、统计计算:对样本观测值进行统计分析

3、结果估计:使用样本均值逼近理论期望值

在MDP背景下,状态价值函数的蒙特卡洛估计可表述为式(2-15)所示:

因此我们可以使用增量式方法进行计算,即对每一条序列中的s和回报G,见式(2-16)和(2-17):

1.3 强化学习基础算法

(1)动态规划方法

基于动态规划的强化学习算法主要有策略迭代和价值迭代两种。其中,策略迭代由策略评估和策略提升组成。策略迭代中的策略评估使用式(2-7)得到一个策略的状态价值函数;而价值迭代直接使用式(2-13)进行动态规划,得到最终的最优状态价值。

然而,动态规划方法要求事先知道环境的状态转移函数和奖励函数。但现实中的白盒环境很少,且动态规划方法通常只适用于有限MDP,因此该方法很难得到实际应用。

(2)时序差分算法

在实际的强化学习应用场景中,如电子游戏或复杂物理系统仿真,环境的状态转移特性往往难以用数学模型精确描述。这类情况下,传统的动态规划方法由于无法获得明确的状态转移概率而难以直接应用。此时,智能体必须通过直接与环境交互获取经验数据,并基于此进行学习,这种学习范式被称为无模型强化学习。

1.2节所述蒙特卡洛方法可以改写为式(2-18)所示:

其中表示价值估计更新的步长,此时更新方式不再像蒙特卡洛一样严格取期望;

被称为时序差分(temporal difference,TD)误差。于是在交互时,每采样一步,我们就可以用TD算法更新状态价值估计。TD算法用到了V(st+1)的估计值,它最终收敛到策略pai的价值函数。

直接使用时序差分法估计动作价值函数Q,见式(2-19):

在决策过程中,采用贪心算法通常会选取具有最高动作价值的动作。但如果始终遵循这种确定性策略,可能导致某些状态-动作组合从未被探索,从而难以准确评估其价值,最终影响策略优化的效果。为解决这一问题,可以引入x贪心策略:以x的概率选择当前最优动作,同时以1-x的概率随机挑选一个动作执行。

这就是Sarsa算法:使用贪婪策略选择动作交互,再根据得到的数据使用TD算法更新动作价值估计。

同理,根据2.2节最优贝尔曼方程可以使用如下方式更新动作价值函数Q,见式(2-20):

这就是Q-learning算法。我们称采样数据的策略为行为策略,称用这些数据来更新的策略为目标策略。这就是Q-learning算法与Sarsa算法的主要不同之处:

在Sarsa算法中,更新动作价值函数时所用的at+1是由当前策略在状态 st+1下选择的动作。由于采样策略和目标策略一致,这类方法被称为在线策略(on-policy)算法,其特点在于必须依赖当前策略产生的经验数据进行更新,一旦策略调整,之前采集的数据就不再适用。

而Q-learning算法更新时使用的maxQ(s,a)并非必须使用当前贪心策略采样得到的数据,行为策略和目标策略不是同一个策略,被称为离线策略(off-policy)算法,能够更好地利用历史数据,并具有更小的样本复杂度(算法达到收敛结果需要在环境中采样的样本数量),这使其被更广泛地应用。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!