无论你对数据科学的态度如何,都不能忽视数据的重要性,以及我们分析、组织和背景化数据的能力。凭借大量的就业数据和员工反馈,Glassdoor将数据科学家列为美国25项最佳工作中的第一名。因此,数据科学家的角色将继续存在,且数据科学家所做的具体工作将会发生变化。随着像机器学习这样的技术越来越普遍,深度学习这样的新兴领域在研究人员和工程师以及雇佣他们的公司中获得了极大的吸引力,数据科学家将继续在令人难以置信的创新和技术进步浪潮中顺风顺水。

虽然拥有强大的编码能力很重要,但数据科学并不完全是关于软件工程的(事实上,熟悉Python就可以了)。数据科学家生活在编码、统计和批判性思维的交汇处。 正如Josh Wills所说,“数据科学家是一个比任何程序员都更擅长统计,并且比任何统计学家更擅长编程的人。”太多软件工程师希望转型为数据科学家,并盲目地将TensorFlow、Apache Spark等机器学习框架用于他们的数据,而没有透彻了解其背后的统计理论。统计学习的研究由此而来 ,这是一个从统计和函数分析领域提取的机器学习理论框架。

为什么要学习统计学习?理解各种技术背后的思想很重要,以便了解如何以及何时使用它们。人们必须先了解较简单的方法,才能掌握较复杂的方法。准确评估一种方法的性能,了解它的工作好坏是很重要的。此外,这是一个令人兴奋的研究领域,在科学、工业和金融领域具有重要应用。归根结底,统计学习是现代数据科学家培训的基本要素。统计学习问题的例子包括:

● 确定前列腺癌的危险因素。

● 根据日志周期图对记录的音素进行分类。

● 根据人口统计、饮食和临床测量预测某人是否会心脏病发作。

● 自定义电子邮件垃圾邮件检测系统。

● 识别手写邮政编码中的数字。

● 将组织样本分类为几个癌症类别之一。

● 在人口调查数据中建立工资和人口变量之间的关系。

1 — 线性回归

在统计学中,线性回归是一种通过拟合因变量和自变量之间的最佳线性关系来预测目标变量的方法。最佳拟合是通过确保形状和每个点的实际观测值之间的所有距离之和尽可能小来实现的。形状的拟合是“最佳”的,因为在给定形状选择的情况下,其他位置不会产生更小的误差。线性回归的两种主要类型是简单线性回归和多元线性回归。简单线性回归使用单个自变量,通过拟合最佳线性关系来预测因变量。多元线性回归通过拟合最佳线性关系,使用多个自变量来预测因变量。

【举例】任何两件你在日常生活中使用并且相关的东西。比如,我有过去3年的月支出、月收入和每月旅行次数的数据。现在我需要回答以下几个问题:

▶ 我明年的月支出是多少?

▶ 在决定我每月的开销时,哪个因素(每月的收入或每月的旅行次数)更重要?

▶ 每月的收入和旅行如何与每月的支出相关联?

2 — 分类:

分类是一种数据挖掘技术,它为数据集合分配类别,以帮助进行更准确的预测和分析。分类有时也被称为决策树,它是用来有效分析大型数据集的几种方法之一。2种主要分类技术脱颖而出:逻辑回归和判别分析。

逻辑回归是当因变量为二进制时要进行的适当回归分析。与所有回归分析一样,逻辑回归是一种预测分析。逻辑回归用于描述数据并解释一个因变量与一个或多个名义、序数、区间或比率级别的自变量之间的关系。逻辑回归可以检查的问题类型:

● 每增重一磅和每天吸一包香烟,患肺癌的概率有何变化?

● 体重、卡路里摄入量、脂肪摄入量和参与者年龄是否会影响心脏病发作?

在判别分析中,2个或更多组或集群或种群是先验已知的,1个或更多的新观测值根据测量的特征被分类为1个已知种群。判别分析模型的预测值的分布X分别在每个响应的类,然后使用贝叶斯定理将它们转换为给定X值的响应类的概率估计。这种模型可以是线性的,也可以是二次的。

▶ 线性判别分析计算每个观测值的“判别分数”,以对其所属的响应变量类别进行分类。这些分数是通过查找自变量的线性组合获得的。它假设每个类别中的观测值都来自多元高斯分布,并且预测变量的协方差在响应变量Y的所有k个水平上是通用的。

▶ 二次判别分析提供了一种替代方法。与LDA一样,QDA假设来自每个Y类的观测值均来自高斯分布。但是,与LDA不同,QDA假设每个类都有自己的协方差矩阵。换句话说,预测变量没有被假设在Y的k个层次上有共同的方差。

3 — 重采样方法:

重采样是一种从原始数据样本中抽取重复样本的方法。它是一种非参数的统计推断方法。换句话说,重采样方法不涉及使用通用分布表来计算近似 p 概率值。

重采样根据实际数据生成唯一的采样分布。它使用实验方法而不是分析方法来生成唯一的抽样分布。它产生无偏估计,因为它是基于研究人员研究的数据的所有可能结果的无偏样本。为了理解重采样的概念,您应该理解术语Bootstrapping 和 Cross-Validation:

▶ Bootstrapping 是一种在许多情况下都有帮助的技术,例如预测模型性能的验证、集成方法、模型偏差和方差的估计。它的工作原理是从原始数据中进行替换采样,并将“未选择”的数据点作为测试用例。我们可以多次这样做并计算平均分数作为我们模型性能的估计。

▶ Cross-Validation 是一种验证模型性能的技术,它是通过将训练数据分成k部分来完成的。我们将 k-1 部分作为我们的训练集,并使用“ hold out ”部分作为我们的测试集。我们以不同的方式重复k次。最后,我们取k个分数的平均值作为我们的性能估计。

通常对于线性模型,普通最小二乘法是考虑将它们拟合到数据中的主要标准。接下来的3种方法是替代方法,可以为拟合线性模型提供更好的预测准确性和模型可解释性。

4 — 子集选择:

这种方法确定了我们认为与响应相关的p个预测变量的子集,然后我们使用子集特征的最小二乘法拟合模型。

▼ 最佳子集选择:在这里,我们为p个预测变量的每个可能组合拟合单独的OLS回归 ,然后查看结果模型拟合。该算法分为2个阶段:(1)拟合包含k个预测变量的所有模型,其中k是模型的最大长度;(2)使用交叉验证的预测误差选择单个模型。使用测试或验证误差而不是训练误差来评估模型拟合非常重要,因为RSS和R²会随着更多变量而单调增加。最好的方法是交叉验证,在测试误差估计中选择R²最高、RSS最低的模型。

▼ 正向逐步选择 考虑的预测器的子集要小得多。它从一个不包含任何预测变量的模型开始,然后向模型添加预测变量,一次一个,直到所有预测变量都在模型中。添加变量的顺序是对拟合提供最大增加改进的变量,直到没有更多变量使用交叉验证的预测误差来改进模型拟合。

▼ 向逆后逐步选择 将模型中的所有p个预测变量,迭代地一次删除一个最没用的预测变量。

▼ 混合方法 遵循正向逐步方法,但是,在添加每个新变量之后,该方法还可能删除对模型拟合没有贡献的变量。

5 — 无监督学习:

到目前为止,我们只讨论了监督学习技术,其中群体是已知的,提供给算法的经验是实际实体与其所属群体之间的关系。当数据的组(类别)未知时,可以使用另一组技术。它们被称为无监督,因为它是留给学习算法来找出所提供数据中的模式。聚类是无监督学习的一个例子,它将不同的数据集聚为一组密切相关的项。以下是最广泛使用的无监督学习算法列表:

▲ 主成分分析通过识别一组具有最大方差且互不相关的特征的线性组合来帮助生成数据集的低维表示。这种线性维数技术有助于理解无监督环境中变量之间的潜在相互作用。

▲ k-Means聚类:根据到集群中心的距离将数据划分为k个不同的集群。

▲ 分层聚类:通过创建集群树来构建聚类的多级层次结构。

这是一些基本统计技术的基本概要,可以帮助数据科学项目经理或执行官更好地了解其数据科学团队背后的运行情况。说实话,一些数据科学团队纯粹通过python和R运行算法。他们中的大多数人甚至不需要考虑潜在的数学问题。但是,能够理解统计分析的基础知识可为你的团队提供更好的方法。希望这个基本的数据科学统计指南能让你有一个全面的理解!

作者:James Le

免责声明:凡未注明来源或者来源为网络的信息均转自其它平台,是出于传递更多信息之目的,并不意味着赞同其观点或证实其内容的真实性。网站只负责对文章进行整理、排版、编辑,不承担任何法律责任。若有侵权或异议请联系我们删除,谢谢。

发表评论

您的电子邮箱地址不会被公开。