Ecuación de Hamilton-Jacobi-Bellman

From Wikipedia, the free encyclopedia

La ecuación de Hamilton-Jacobi-Bellman (HJB) es una ecuación diferencial parcial que es fundamental para la teoría de control óptimo. La solución de la ecuación HJB es la "función de valor" (o "función de costo óptimo"), la cual da el costo mínimo para un sistema dinámico dado, con una función de costo asociada.

Cuando se resuelve localmente, la HJB es una condición necesaria, pero cuando se resuelve sobre la totalidad del espacio de estados, la ecuación HJB es una condición necesaria y suficiente para un óptimo. La solución es de lazo abierto, pero también permite que la solución del problema sea de lazo cerrado. El método HJB puede ser generalizado a sistemas estocásticos.

Hay varios problemas variacionales clásicos, por ejemplo, el problema braquistocrona, se pueden resolver con este método.

La ecuación es un resultado de la teoría de programación dinámica, en la que Richard Bellman fue pionero en la década de 1950.[1] La ecuación a tiempo discreto correspondiente se refiere generalmente como la ecuación de Bellman. En tiempo continuo, el resultado puede ser visto como una extensión del trabajo a principios de la física clásica en la ecuación de Hamilton-Jacobi por William Rowan Hamilton y Carl Gustav Jacob Jacobi.

Considere el siguiente problema de control óptimo determinista sobre el período de tiempo :

donde C[ ] es la función de tasa de coste escalar y D[ ] es una función que da el valor económico o utilidad en el estado final, x(t) es el vector de estado del sistema, se supone que x(0) está dado, y que u(t) para cada 0  t  T es el vector de control que estamos tratando de encontrar.

El sistema también está sujeto a la dinámica

donde F[ ] da el vector de la determinación de la evolución física del vector de estado con el tiempo.

La ecuación diferencial parcial

Para este sistema simple, la ecuación diferencial parcial de Hamilton-Jacobi-Bellman es:

sujeto a la condición terminal

donde es el operador gradiente y representa el producto punto (o escalar) de los vectores y . El escalar desconocido en la EDP anterior es la "función de valor" de Bellman, que representa el costo en el que se incurre cuando se inicia en el estado x y al tiempo t y, de ahí en adelante, se controla óptimamente el sistema hasta el tiempo final .

Derivación de la ecuación

Intuitivamente HJB se "deriva" de la siguiente manera. Si es la función de costo óptimo (también llamada "función de valor"), entonces por el principio de optimalidad de Bellman, al pasar de a , se tiene que:

Ahora, teniendo en cuenta que el desarrollo de Taylor del último término es:

donde denota los términos en la expansión de Taylor de orden superior a uno. Entonces si cancelamos en ambos lados, se divide por , y tomamos límite cuando tiende a cero, se obtiene la ecuación HJB definida anteriormente.

Resolución de la ecuación

La ecuación HJB suele resolverse usando Inducción hacia atrás, empezando en y terminando en .

Cuando se resuelve sobre la totalidad del espacio de estados, la ecuación HJB es una condición necesaria y suficiente para un óptimo.[2] Si podemos resolver para entonces podemos encontrar un control de donde se consiga el mínimo costo.

En el caso general, la ecuación HJB no tiene una solución clásica (suave). Varios conceptos de soluciones generalizadas se han desarrollado para cubrir este tipo de situaciones, por ejemplo, soluciones viscosas (Pierre-Louis Lions y Michael Crandall), soluciones minimax ( Andrei Izmailovich Subbotin ), entre otros.

Extensión a problemas estocásticos

Aplicación al control LQG

Referencias

Related Articles

Wikiwand AI