- 智能控制与强化学习:先进值迭代评判设计
- 王鼎 赵明明 哈明鸣 任进
- 796字
- 2025-01-09 16:59:56
1.2.1 离散时间HJB方程
考虑如下一类确定的、时不变的、离散时间非线性系统

其中,xk∈ Rn和uk∈ Rm分别为系统状态和控制输入,F∶Rn×Rm →Rn是系统函数。假设函数F(x,u)是Lipschitz连续的。假设原点x=0是系统(1-1)在u=0下的唯一平衡点,即F(0,0)=0。
定义 1-1 如果存在一个控制输入u∈ Rm使得对于任意的初始状态x0∈Ω,当k→∞时,xk→0,则这个非线性动态系统在紧集Ω⊂Rn上是可镇定的。
对于无折扣最优调节问题,定义无限时域的代价函数为

其中,U(x,u)≥0是相对于x和u的效用函数,且U(0,0)=0。一般地,效用函数可以为二次型形式U(x,u)=xTQx+uTRu,其中,Q∈ Rn×n和R∈ Rm×m是正定矩阵。期望找到一个最优状态反馈控制律u*(x),不仅能够在Ω上镇定被控系统(1-1),而且能够保证代价函数(1-2)是有限的,即u*(x)是一个容许控制律。
定义 1-2 如果满足以下条件:u(x)在集合Ω上是连续的;u(x)在集合Ω上镇定系统(1-1);对于所有的x0∈Ω,J(x0)是有限的;u(0)=0,则这个状态反馈控制律u(x)对于代价函数(1-2)在集合Ω上是容许的。
为了进一步说明代价函数,式(1-2)可以写为

根据 Bellman 最优性原理,最优代价函数是时不变的,并且满足以下离散时间HJB方程

其中,最优控制律可通过式(1-5)求解

注意,最优控制律满足一阶必要条件,该条件可由式(1-4)右侧部分关于uk的偏导数给出,即

于是,进一步得到

作为一类特例,具有输入仿射形式的离散时间非线性系统(1-1)表示为

其中,f ∶Rn→Rn和g ∶Rn→Rn ×m是系统函数,f(0)=0。针对非线性仿射系统,式(1-7)中的最优控制律可以写为

当仿射系统中的函数g(x)已知时,可以避免求解∂xk+1/∂uk。然而,大多数非线性系统通常为非仿射形式或系统模型未知,这需要建立模型网络近似求解∂xk+1/∂uk。
注意到J*(x)存在于式(1-4)的两边,这意味着 HJB 方程无法直接求解。于是,学者们提出一些先进的基于评判学习机制的VI算法,用于数值求解HJB方程,进而获得非线性系统的近似最优控制律。