Gradientenabstieg in linearer Regression

Gradient-Descent-Algorithmus für lineare Regression

- > Œ∏  j :  Gewichte der Hypothese. - > h  Œ∏  (x  i ):  vorhergesagter y-Wert für i  te  Eingabe. - > j:  Feature-Indexnummer (kann 0, 1, 2, ......, n sein). - > Œ±:  Lernrate des Gradientenabstiegs. 

Wir stellen die Kostenfunktion als Funktion von Parameterschätzungen dar, d. h. den Parameterbereich unserer Hypothesenfunktion und die Kosten, die sich aus der Auswahl eines bestimmten Satzes von Parametern ergeben. Wir bewegen uns nach unten zu den Gruben im Diagramm, um den Mindestwert zu finden. Die Vorgehensweise — Nehmen Sie die Ableitung der Kostenfunktion, wie in der obigen Abbildung erläutert. Der Gradientenabstieg senkt die Kostenfunktion in Richtung des steilsten Abstiegs. Die Größe jedes Schritts wird durch den Parameter Œ±, bestimmt, der als Lernrate bekannt ist.

Beim Gradientenabstiegsalgorithmus können zwei Schlussfolgerungen gezogen werden :

  1. Wenn die Steigung + ve ist: Œ∏ j = Œ∏ j — (+ ve-Wert). Daher nimmt der Wert von Œ∏ j ab.
  2. Wenn die Steigung -ve ist : Œ∏ j = Œ∏ j — (-ve-Wert). Daher wird der Wert von Œ∏ j erhöht.

Die Auswahl der richtigen Lernrate ist sehr wichtig, da sie sicherstellt, dass der Gradientenabstieg in einer angemessenen Zeit konvergiert.:

  1. Wenn wir Œ± wählen sehr groß , Gefälle kann das Minimum überschreiten. Es darf nicht konvergieren oder sogar divergieren.
  2. Wenn wir Œ± sehr klein wählen, wird der Gradientenabstieg kleine Schritte machen, um lokale Minima zu erreichen, und es wird länger dauern, die Minima zu erreichen.
  3. Für die lineare Regression ist der Graph der Kostenfunktion immer konvex.

    Hinweis: Der Gradientenabstieg wird manchmal auch mithilfe von Regularisierungen implementiert.