REINFORCE

From Wikipedia, the free encyclopedia

En intelligence artificielle, plus précisément en apprentissage automatique, REINFORCE est un algorithme d'apprentissage par renforcement qui applique directement une méthode de gradient sur la politique. C'est une méthode policy-gradient qui s'oppose aux méthodes qui optimisent la valeur (comme le Q-learning). Il est introduit par Ronald Williams en 1992[1].

Exemple

Considérons un système, par exemple un robot qui se déplace sur une grille. Le système est dans un certain état. Par exemple, un état peut être la position du robot sur la grille. Les actions du robot sont par exemple : aller à gauche, aller à droite, aller en haut, aller en bas ou rester sur place. Une politique est une fonction quelconque qui à chaque état du système associe une distribution de probabilité sur les actions. On note la probabilité d'exécuter l'action dans l'état . Dans l'algorithme REINFORCE, on représente une politique avec un vecteur θ . Pour souligner que la politique dépend du vecteur , on la note π(·[Quoi ?], θ). Les nombres dans le vecteur sont des paramètres dans une expression analytique qui représente la politique. On écrit la probabilité d'exécution de l'action dans l'état , quand il s'agit de la politique paramétrisée par le vecteur .

Par exemple, considérons un robot où l'état s est représenté par sa position (x1(s), x2(s)) dans le plan. On peut imaginer que la probabilité d'exécuter l'action a dans l'état s est donnée par

où le vecteur θ est la collection de tous les paramètres θ1,a, θ2,a pour toutes les actions a.

Principe REINFORCE Monte Carlo policy gradient

REINFORCE avec ligne conductrice

Notes et références

Related Articles

Wikiwand AI