Gradient Descent

  • Type d'algorithme d'optimisation :

    • Stochastic Gradient Descent (SGD)

    • Batch Gradient Descent (BGD)

    • Adam

    • RMSProp

    • AdaGrad

  • But : minimiser la fonction de loss

  • Gradient = dĂ©rivĂ©e partielle

  • Learning rate : hyper paramètre

  • Si gradient nĂ©gatif, la fonction de loss diminue lorsque le poids augmente.

  • Si gradient positif, la fonction de loss augmente lorsque le poids augmente.

Gradient positif. Source : Machine Learnia
  • La fonction de loss doit ĂŞtre convexe, c'est Ă  dire sans minimum local, sinon l'algorithme peut rester bloquĂ© sur ce dernier, empĂŞchant la minimisation.

  • Moins la fonction de loss est convexe (plus il y a de minimum locaux), plus il est difficile de minimiser la fonction si le learning rate est fixe. Un learning rate adaptif (qui varie entre chaque itĂ©ration de l'algorithme) peut permettre de sortir d'un minimum local. Par dĂ©faut, le SGD (Stochastic Gradient Descent) ou BGD (Batch Gradient Descent) ont un learning rate fixe. D'autres algorithme de dĂ©scente de gradient (Adam, AdaGrad, RMSProp) ont un learning rate adaptif.

Minimum local lors d'une descente de gradient. Source : Machine Learnia

Sources

Last updated