Алгоритм градиентного спуска для линейная регрессия
- > Œ∏ j : веса гипотезы. - > h Œ∏ (x i ): предсказанное значение y для i -го ввода. - > j: порядковый номер функции (может быть 0, 1, 2, ......, n). - > Œ±: скорость обучения градиентного спуска.
Мы отображаем функцию стоимости как функцию оценок параметров, то есть диапазона параметров нашей функции гипотезы и стоимости, полученной в результате выбора определенного набора параметров. Мы спускаемся к ямкам на графике, чтобы найти минимальное значение. Как это сделать — возьмите производную функции стоимости, как показано на рисунке выше. Градиентный спуск понижает функцию стоимости в сторону наискорейшего спуска. Размер каждого шага определяется параметром Œ±, , известным как скорость обучения .
В алгоритме градиентного спуска можно сделать два вывода. :
- Если наклон + ve : Œ∏ j = Œ∏ j — (+ значение ve). Следовательно, значение Œ∏ j уменьшается.
- Если наклон равен -ve : Œ∏ j = Œ∏ j — (значение -ve). Следовательно, значение Œ∏ j увеличивается.

Выбор правильной скорости обучения очень важен, потому что она гарантирует, что градиентный спуск сходится за разумное время.:
- Если мы выберем Œ± очень большой , градиентный спуск может превышать минимум. Он может не сходиться или даже расходиться.
- Если мы выберем Œ± как очень маленькое, градиентный спуск будет делать маленькие шаги, чтобы достичь локальных минимумов, и для достижения минимумов потребуется больше времени.
Для линейной регрессии график функции стоимости всегда выпуклый.
Примечание. градиентный спуск иногда также реализуется с использованием регуляризации .