做数据分析,机器学习到底是不是刚需技能?!

做数据分析,机器学习到底是不是刚需技能?!

最近有一些小伙伴问到我一个问题:数据分析师需要学机器学习的内容吗?很多人对机器学习的概念还是比较模糊的,更勿论数据分析和机器学习之间的联系了。

机器学习的定义是什么:发现和探索隐藏在数据中的令人感兴趣的信息,从样本集学习(估计)一个假设(模型)f(x),使得f(x)是自然模型F(x)的一个近似。Arthur samuel说在不直接针对问题进行编程的情况下,赋予计算机学习能力的一个研究领域。Tom Mitchell说过,一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当,有了经验E后,经过P评判,程序在处理T时的性能有所提升。

  机器学习怎么进行分类呢:

  1、监督学习Supervised learning

  2、无监督学习Unsupervised learning

  3、半监督学习Semi-supervised learning

  4、强化学习Reinforcement learning

  监督学习是从给定的训练数据集中学习出一个函数(模型参数), 当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求包括输入输出,也可以说是特征和目标。而常用的无监督学习算法主要有主成分分析方法PCA等,等距映射方法、局部线性嵌入方法、拉普拉斯特征映射方法、黑塞局部线性嵌入方法和局部切空间排列方法等。

  比如说,预测明天的气温是多少度,这是一个回归任务。

  预测明天是阴、晴还是雨,就是一个分类任务。

  分类模型和回归模型本质一样,分类模型是将回归模型的输出离散化。

  机器学习方法通常是由模型、策略和算法这三部分构成。

  模型:输入空间到输出空间的映射关系。

  策略:从假设空间众多假设中选择到最优的模型的学习标准(前面的例子中,高次多项式

  拟合似乎不是最优的,那么最优的标准是什么。

  算法:学习模型的具体计算方法,通常是求解优化问题(如何让计算机以代价最低的方式获得解)。

模型的选取取决于要解决什么样的问题,预测目标的取值——回归,预测目标的类别——分类,划分目标的结构——聚类。

策略:从假设空间众多假设中选择到最优的模型的学习标准。

要从假设空间中选择一个合适的模型需要解决以下问题:

1、评估某个模型对单个训练样本的效果

2、评估某个模型对训练集的整体效果

3、评估某个模型对包括训练集、预测集在内所有数据的整体效果

我们需要定义几个指标用来衡量上述问题:

损失函数:针对单个样本,表示模型预测值与真实样本值之间的差距。损失函数越小,说明模型对于该样本预测越准确。常见损失函数有0- 1损失函数、平方损失函数、绝对损失函数、对数损失函数。

经验风险:对所有训练样本都求损失函数,再累加求平均。即,模型f(x)对训练样本中所有样本的预测能力。

期望风险:对所有样本(包含未知样本和已知的训练样本)的预测能力,是全局概念,其实没办法算。

结构风险:模型越复杂结构风险越大(高次多项式拟合)。

  关于算法,我们在这里不多讲述。

  俗话说,巧妇难为无米之炊。数据和特征就是“米”,模型和算法则是“巧妇”,没有充足的数据、合适的特征,再强大的模型结构也无法得到满意的输出,为了更好的使用模型,数据分析师必须先对数据有个正确的认识。

发表评论

您的电子邮箱地址不会被公开。