吴恩达机器学习——多元梯度下降法

1

多元梯度下降法技巧

正确的学习率α能够使代价函数J,每次迭代后J都下降。画出代价函数随迭代步数增加的变化曲线。通过看这种曲线来判断梯度下降算法是否收敛。这种图还能看到算法有没有正常工作。

因此,在进行梯度下降时,总是绘制代价函数随迭代的变化曲线,观察算法是否有效

image-20220118104930190

如果算法不正常工作,最简单的方法:使用更小的学习率(数学上已经证明,足够小的学习率能够使代价函数每次迭代都减小)(如果学习率太小,收敛速度会减慢)

image-20220118105017779

寻找学习率的方法:从小开始,逐步3倍增加,接近最大值得时候,取一个小一点儿的值。

image-20220118105032119

特征与多项式回归

通过定义新特征,你可能会得到一个更好的模型。(例如,直接给定的数据是房子的宽度,长度/深度,我们计算出新的特征值为面积)

image-20220118105113399

多项式回归与线性回归的一致性,以及特征缩放更加重要。

image-20220118105157311

可以自己选择所要拟合的函数:

image-20220118105231495

正规方程

正规方程直接求解最优θ(不需要做特征缩放)

image-20220118105323351

梯度下降需要迭代获取到最优值;正规方程能够直接计算出最优值。

image-20220118105342066

求解各个偏导数为0的方程组。

image-20220118105354794

image-20220118105402482

选择使用梯度下降还是正规方程?

特征值变量的数据决定选择梯度下降还是正规方程。(很难给出确切的临界数字,一般10000以上的特征变量就开始考虑使用梯度下降算法。)

正规方程的算法复杂度是O(n3),n为特征值数量。

image-20220118105517576

正规方程在矩阵不可逆情况下的解决办法

**XT*X**不可逆的原因:

  1. 存在多余特征(存在线性相关的特征)

  2. 特征太多: m<=n 表示样本数量小于特征数量(解决方法:删除多余特征或正规化 regularization)

    image-20220118105828937