吴恩达机器学习课程笔记——应用场景、定义及分类

学习吴恩达老师的机器学习课程,记了些笔记,整理出来,与大家分享。

应用场景

机器学习的应用场景主要有4个:

数据挖掘:Data Mini

例如,挖掘Web点击数据、医院病历数据、生物学中的各项数据等。

完成无法编程实现的任务:Applications can’t program by hand

例如,自动无人机,无人驾驶,手写识别任务,自然语言处理(NLP),计算机视觉等。

个性化定制任务:Self-customizing programs

最常见是各个商城平台的商品推荐,例如淘宝、京东,亚马逊等。

了解人类

通过机器学习,通过AI来了解人类的学习机制,了解人类的大脑,逐步实现真正的人工智能。

定义:什么是机器学习

  1. Arthur Samuel (1959) :

机器学习是给予计算机无需明确的编程即可拥有学习的能力。

Field of study that gives computers the ability to learn without being explicitly programmed.

  1. Tom Mitchell (1998):

    学习问题是,对于某个任务T,其性能指标为P,通过从经验E学习,能够对执行任务T时,提高P值。

    拿电脑下棋来说,下棋为Task T,已经下过的棋盘为Experience E,下棋赢得概率为Performance P。

    Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.

机器学习的分类

机器学习可划分为监督学习(Supervised Learning)与无监督学习(Unsupervised Learning)。

监督学习

监督学习,即teach computer how to do something,通俗的来说,就是给定一些数据的正确答案,然后通过学习,使得机器能够产生其他数据的正确答案。Give the algorithm a data set, in which the “right answers” were given, and the task of algorithm was to just produce more of these “right answers”.

比如房价预测,通过过往历年完整的房价数据来“学习”“训练”,使得能够一定程度上预测数值的输出。又比如通过对医院中的病历分析,判断新病人的肿瘤是良性还是恶性。

在监督学习中,每个样品都被明确标明为阳性样本或阴性样本,我们已经被告知了什么是所谓的正确答案。

无监督学习

无监督学习,即learn by itself。在无监督学习中,数据没有任何标签或都具有相同的标签,我们拿到一个数据集,但是不知道要拿它来做什么,也不知道每个数据点究竟是什么,只是被告知这里有一个数据集,你能在其中找到某种结构吗。

比如聚类算法,来分析社交网络,划分市场等等,没有明确的指标。又比如语音识别领域的鸡尾酒会问题,如何从多个混合一个声波信号中分离出多个独立正确的声波。

其他

吴恩达老师推荐使用Octave 开源免费的编程环境软件来学习与实现机器学习算法,当确认算法可以实现后,才用C或者Python等高级语言来实现。

Octave是一个类Matlab的开源程序。