Descenso de gradiente en regresión lineal

| | | | | | | | | | | | | | | | |

Algoritmo de descenso de gradiente para regresión lineal

- > Œ∏  j :  Pesos de la hipótesis. -> h  Œ∏  (x  i ):  valor predicho de y para i  th  entrada. -> j:  número de índice de función (puede ser 0, 1, 2, ......, n). -> Œ±:  Tasa de aprendizaje de descenso de gradiente. 

Mostramos la función de costo como una función de estimaciones de parámetros, es decir, el rango de parámetros de nuestra función de hipótesis y el costo resultante de la selección de un conjunto específico de parámetros. Bajamos a los hoyos en el gráfico para encontrar el valor mínimo. La forma de hacerlo — tome la derivada de la función de costo como se explica en la figura anterior. El descenso de gradiente reduce la función de costo hacia el descenso más pronunciado. El tamaño de cada paso está determinado por el parámetro Œ±, conocido como tasa de aprendizaje.

En el algoritmo de descenso de gradiente, se pueden sacar dos conclusiones :

  1. Si la pendiente es + ve: Œ∏ j = Œ∏ j — (+ valor ve). Por lo tanto, el valor de Œ∏ j es decreciente.
  2. Si la pendiente es -ve : Œ∏ j = Œ∏ j — (-ve valor). Por lo tanto, el valor de Œ∏ j aumenta.

La elección de la tasa de aprendizaje correcta es muy importante porque asegura que el gradiente descendente converja en un tiempo razonable.:

  1. Si elegimos Œ± muy grande , el descenso del gradiente puede exceder el mínimo. Puede que no converja o incluso diverja.
  2. Si elegimos Œ± como muy pequeño, el Descenso de Gradiente tomará pequeños pasos para alcanzar los mínimos locales, y llevará más tiempo alcanzar los mínimos.
  3. Para la regresión lineal, el gráfico de la función de costo siempre es convexo.

    Nota: el descenso de gradiente a veces también se implementa mediante regularizaciones .