吴恩达机器学习——第一个机器学习算法-线性回归的梯度下降
线性回归的一些注意事项
无论导数正负,都可以将变化趋势向最低点靠近
如果你已经在局部最低点了,θ1将不再改变,它将使你的点始终保持在局部最优点上。
梯度下降能收敛到局部最优点,以一个固定的α。(随着越接近最优点,导数值越小)随着梯度下降法的运行,你移动的幅度会自动变得越来越小,直到最终移动幅度非常小,已经收敛到局部极小值。
第一个机器学习算法
算法如下图,需要注意每次需要全部更新所有θ的值。
(如果每次只更新一个,或许也可以获取最优解,但是算法就不是该算法了)。
“Batch” Gradient Descent,其中的“Batch”表示每一次迭代都使用了全部的训练数据。
(在后续学习中,“正规方程组方法”能够不用迭代的求出最优解;但是梯度下降适用于更大的数据集)
线性回归的代价函数图像总是这样的凸函数(convex function)(没有局部最优解,只有一个全局最优解),如下图:
矩阵与向量的基础知识
矩阵:通常用大写字母表示矩阵。
向量:只有一列的矩阵,默认使用1-indexed下标方式,即下标从1开始;通常用小写字母表示向量。
矩阵与向量乘法:
通过矩阵向量相乘,就可以得出所有hθ(x)的预测值:
预测值 = 数据矩阵 * 参数向量
矩阵的乘法:
C的第n列是矩阵A与矩阵B的第n列相乘的结果。
矩阵乘法不满足交换律 AB ≠ BA
矩阵乘法满足结合律:ABC = A*(BC) = (AB)*C
单位矩阵I:对角线为1,其他为0;
不存在逆矩阵的矩阵,称为奇异矩阵,或者,退化矩阵。
吴恩达老师提到,对于算法而言,没有逆矩阵意味着什么?怎么解决?
至少可以这样理解:把哪些没有逆矩阵的矩阵,想象成非常近似为0
矩阵的转置