Estado-Acción-Recompensa-Estado-Acción (SARSA)
From Wikipedia, the free encyclopedia
Estado-acción-recompensa-estado-acción (SARSA) es un algoritmo para el aprendizaje de una política de proceso de decisión de Markov, utilizado en el área de aprendizaje de refuerzo del aprendizaje automático. Fue propuesto por Rummery y Niranjan en una nota técnica[1] con el nombre de "Modified Connectionist Q-Learning" (Q-Learning conexionista modificado) (MCQ-L). El nombre alternativo SARSA, propuesto por Rich Sutton, sólo se mencionó como nota a pie de página.
Este nombre refleja el hecho de que la función principal para actualizar el valor Q depende del estado actual del agente "S1", la acción que elige el agente "A1", la recompensa "R2" que obtiene el agente por elegir esta acción, el estado "S2" en el que entra el agente después de realizar esa acción y, por último, la siguiente acción "A2" que elige el agente en su nuevo estado. El acrónimo de la quíntuple (St, At, Rt+1, St+1, At+1) es SARSA.[2] Algunos autores utilizan una convención ligeramente diferente y escriben la quíntupla (St, At, Rt, St+1, At+1), dependiendo del paso temporal en el que se asigne formalmente la recompensa. En el resto del artículo se utiliza la convención anterior.
Un agente SARSA interactúa con el entorno y actualiza la política en función de las acciones realizadas, por lo que se conoce como algoritmo de aprendizaje sobre política. El valor Q de un estado-acción se actualiza mediante un error, ajustado por el índice de aprendizaje α. Los valores Q representan la posible recompensa recibida en el siguiente paso temporal por realizar la acción a en el estado s, más la recompensa futura descontada recibida de la siguiente observación del estado-acción.
El Q-learning de Watkin actualiza una estimación de la función de valor óptimo estado-acción basado en la recompensa máxima de las acciones disponibles. Mientras que SARSA aprende por sí mismo los valores Q asociados a la adopción de la política que sigue, el Q-learning de Watkin aprende los valores Q asociados a la adopción de la política óptima mientras sigue una política de exploración/explotación.
Algunas optimizaciones del aprendizaje Q de Watkin pueden aplicarse a SARSA.[3]