Softplus
From Wikipedia, the free encyclopedia
En mathématiques et en machine learning, la fonction softplus est la fonction réelle

C'est une approximation lisse (et même analytique) d'une rampe, connue comme le rectifier ou ReLU (rectified linear unit) en machine learning.
Les noms softplus[1],[2] et SmoothReLU[3] sont utilisés en machine learning. Le nom "softplus" (2000), par analogie avec le nom softmax (1989), vient supposément du fait qu'il s'agit d'une approximation lisse (soft) de la partie positive de x, qui est parfois noté avec l'exposant plus, .
Propriétés et formes alternatives
La fonction softplus est strictement positive. Pour de grandes valeurs négatives de , on a , et pour de grandes valeurs positives de , on a . Elle approche donc la fonction rampe par excès.
Cette fonction peut être approchée par :
Par un changement de variables , elle est équivalente à
Un paramètre de raideur peut être ajouté :
La fonction approche la fonction rampe d'autant mieux que le paramètre prend de grandes valeurs positives.
Fonctions associées
La dérivée de la fonction softplus est la fonction logistique standard :
qui est connue pour être une approximation lisse de la fonction de Heaviside.
LogSumExp
Une généralisation multivariée de la fonction softplus est la fonction LogSumExp avec le premier argument fixé à zéro :
La fonction LogSumExp est définie par
et son gradient est la softmax ; le softmax avec le premier argument fixé à zéro est la généralisation multivariée de la fonction logistique. Les deux fonctions LogSumExp et softmax sont aussi utilisées en machine learning.
Conjugué convexe
Le conjugué convexe (plus précisément, la transformée de Legendre) de la fonction softplus est la fonction entropie binaire (de base e) négative. Cela vient du fait (avec la définition de la transformation de Legendre : les dérivées sont les fonctions inverses) que la dérivée de la fonction softplus est la fonction logistique, dont l'inverse est le logit, qui est la dérivée de l'entropie binaire négative.
Softplus peut être interprété comme une perte logistique (comme un nombre positif), ainsi, par dualité, minimiser la perte logistique correspond à maximiser l'entropie. Ceci justifie le principe d'entropie maximale comme minimisation de perte.