Gradient Descent

La fonction de loss doit être convexe, c'est à dire sans minimum local, sinon l'algorithme peut rester bloqué sur ce dernier, empêchant la minimisation.
Moins la fonction de loss est convexe (plus il y a de minimum locaux), plus il est difficile de minimiser la fonction si le learning rate est fixe. Un learning rate adaptif (qui varie entre chaque itération de l'algorithme) peut permettre de sortir d'un minimum local. Par défaut, le SGD (Stochastic Gradient Descent) ou BGD (Batch Gradient Descent) ont un learning rate fixe. D'autres algorithme de déscente de gradient (Adam, AdaGrad, RMSProp) ont un learning rate adaptif.

Sources

Last updated 1 year ago