Ecuación de Hamilton-Jacobi-Bellman

La ecuación de Hamilton-Jacobi-Bellman (HJB) es una ecuación diferencial parcial que es fundamental para la teoría de control óptimo. La solución de la ecuación HJB es la "función de valor" (o "función de costo óptimo"), la cual da el costo mínimo para un sistema dinámico dado, con una función de costo asociada.

Cuando se resuelve localmente, la HJB es una condición necesaria, pero cuando se resuelve sobre la totalidad del espacio de estados, la ecuación HJB es una condición necesaria y suficiente para un óptimo. La solución es de lazo abierto, pero también permite que la solución del problema sea de lazo cerrado. El método HJB puede ser generalizado a sistemas estocásticos.

Hay varios problemas variacionales clásicos, por ejemplo, el problema braquistocrona, se pueden resolver con este método.

La ecuación es un resultado de la teoría de programación dinámica, en la que Richard Bellman fue pionero en la década de 1950.^[1] La ecuación a tiempo discreto correspondiente se refiere generalmente como la ecuación de Bellman. En tiempo continuo, el resultado puede ser visto como una extensión del trabajo a principios de la física clásica en la ecuación de Hamilton-Jacobi por William Rowan Hamilton y Carl Gustav Jacob Jacobi.

Considere el siguiente problema de control óptimo determinista sobre el período de tiempo $[0,T]$ :

V(x(0),0)=\min _{u}\left\{\int _{0}^{T}C[x(t),u(t)]\,dt+D[x(T)]\right\}

donde C[ ] es la función de tasa de coste escalar y D[ ] es una función que da el valor económico o utilidad en el estado final, x(t) es el vector de estado del sistema, se supone que x(0) está dado, y que u(t) para cada 0 ≤ t ≤ T es el vector de control que estamos tratando de encontrar.

El sistema también está sujeto a la dinámica

{\dot {x}}(t)=F[x(t),u(t)]\,

donde F[ ] da el vector de la determinación de la evolución física del vector de estado con el tiempo.

La ecuación diferencial parcial

Para este sistema simple, la ecuación diferencial parcial de Hamilton-Jacobi-Bellman es:

{\dot {V}}(x,t)+\min _{u}\left\{\nabla V(x,t)\cdot F(x,u)+C(x,u)\right\}=0

sujeto a la condición terminal

V(x,T)=D(x),\,

donde $\nabla$ es el operador gradiente y $a\cdot b$ representa el producto punto (o escalar) de los vectores $a$ y $b$ . El escalar desconocido $V(x,t)$ en la EDP anterior es la "función de valor" de Bellman, que representa el costo en el que se incurre cuando se inicia en el estado x y al tiempo t y, de ahí en adelante, se controla óptimamente el sistema hasta el tiempo final $T$ .

Derivación de la ecuación

Intuitivamente HJB se "deriva" de la siguiente manera. Si $V(x(t),t)$ es la función de costo óptimo (también llamada "función de valor"), entonces por el principio de optimalidad de Bellman, al pasar de $t$ a $t+dt$ , se tiene que:

V(x(t),t)=\min _{u}\left\{C(x(t),u(t))\,dt+V(x(t+dt),t+dt)\right\}.

Ahora, teniendo en cuenta que el desarrollo de Taylor del último término es:

V(x(t+dt),t+dt)=V(x(t),t)+{\dot {V}}(x(t),t)\,dt+\nabla V(x(t),t)\cdot {\dot {x}}(t)\,dt+o(dt),

donde $o(dt)$ denota los términos en la expansión de Taylor de orden superior a uno. Entonces si cancelamos $V(x(t),t)$ en ambos lados, se divide por $dt$ , y tomamos límite cuando $dt$ tiende a cero, se obtiene la ecuación HJB definida anteriormente.

Resolución de la ecuación

La ecuación HJB suele resolverse usando Inducción hacia atrás, empezando en $t=T$ y terminando en $t=0$ .

Cuando se resuelve sobre la totalidad del espacio de estados, la ecuación HJB es una condición necesaria y suficiente para un óptimo.^[2] Si podemos resolver para $V$ entonces podemos encontrar un control de $u$ donde se consiga el mínimo costo.

En el caso general, la ecuación HJB no tiene una solución clásica (suave). Varios conceptos de soluciones generalizadas se han desarrollado para cubrir este tipo de situaciones, por ejemplo, soluciones viscosas (Pierre-Louis Lions y Michael Crandall), soluciones minimax ( Andrei Izmailovich Subbotin ), entre otros.

Extensión a problemas estocásticos

La idea de la solución de un problema de control mediante la aplicación del principio de optimalidad de Bellman y luego trabajando hacia atrás en el tiempo de una estrategia de optimización puede ser generalizado a los problemas de control estocásticos. Considere como antes

\min _{u}\left\{\int _{0}^{T}C(t,X_{t},u_{t})\,dt+D(X_{T})\right\}

ahora con $(X_{t})_{t\in [0,T]}\,\!$ el proceso estocástico para optimizar y $(u_{t})_{t\in [0,T]}\,\!$ la dirección. Usando primero Bellman y luego expandiendo $V(X_{t},t)$ con la regla de Itô, se encuentra la ecuación HJB estocástica.

\min _{u}\left\{{\mathcal {A}}V(x,t)+C(t,x,u)\right\}=0,

donde ${\mathcal {A}}$ representa el operador de diferenciación estocástica, y sujeto a la condición terminal

V(x,T)=D(x)\,\!.

Tenga en cuenta que la aleatoriedad ha desaparecido. En este caso una solución $V\,\!$ de este último no resuelve necesariamente el problema principal, sólo es un candidato el cual debe verificar otros argumentos que permitan establecer si es o no solución. Esta técnica es ampliamente utilizado en las matemáticas financieras para determinar las estrategias óptimas de inversión en el mercado (véase, por ejemplo problema cartera de Merton).

Aplicación al control LQG

Como ejemplo, podemos mirar un sistema LQ que consiste en una dinámica estocástica lineal y un costo cuadrático. Si la dinámica del sistema está dada por:

dx_{t}=(ax_{t}+bu_{t})dt+\sigma dw_{t},

y el costo se acumula en tasa $C(x_{t},u_{t})=r(t)u_{t}^{2}/2+q(t)x_{t}^{2}/2$ , La ecuación HJB está dada por

-{\frac {\partial V(x,t)}{\partial t}}={\frac {1}{2}}q(t)x^{2}+{\frac {\partial V(x,t)}{\partial x}}ax-{\frac {b^{2}}{2r(t)}}\left({\frac {\partial V(x,t)}{\partial x}}\right)^{2}+\sigma {\frac {\partial ^{2}V(x,t)}{\partial x^{2}}}.

Suponiendo una forma cuadrática de la función de valor, se obtiene la habitual ecuación de Riccati para la Arpillera de la función de valor como es habitual para el control lineal-cuadrática de Gauss