我们接着说数据分析的十六种方法中的回归分析法、聚类分析法和判别分析法:

七、回归分析

回归分析在统计学中是指确定两种或者两种以上变量之间相互依赖的定量的一种统计分析的方法,在数据分析中运营广泛,回归分析按照涉及其中的变量多少可以分为一元回归和多元回归分析,按照自变量和因变量之间的关系类型,可以分为线性回归分析和非线性回归分析,按照因变量的数量多少,可以分为简单回归分析和多重回归分析。其他还有Logistic回归分析、有序回归、Probit回归、加权回归等分析方法。

回归分析在数据分析中研究的主要问题:

1、 确定Y与X间的定量关系表达式,此表达式成为回归方程;

2、 对求得的回归方程的可信度进行检验;

3、 判断自变量X对因变量Y有无影响;

4、 利用所求得的回归方程进行预测和控制。

我们举个例子,如果要研究质量和用户满意度之间的因果关系,从实践意义上讲,产品

质量会影响用户的满意情况,因此设用户满意度为因变量,记为Y;质量为自变量,记为X。通常可以建立下面的线性关系:Y=A+BX+ξ

八、聚类分析

数据分析中的聚类分析方法主要是指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程,是在相似的基础上把收集起来的数据进行分类,这也是聚类分析方法的目标。

数据分析中需要用到很多统计学的观点,那聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、加入法、动态聚类法、有重叠聚类、分解法和模糊聚类法等。

例如,学校里面会有一些同学玩在一起,学在一起,关系很好,但是他们与另外一些同学的来往就比较少,关系也比较疏远。我们从数据分析的角度去进行深层次的分析,我们就会发现,经常在一起的同学的家庭情况、学习成绩、课余爱好、性格等等方面都会有更多的的共同点,那么关系没那么好的、比较疏远的同学在这些方面就会有比较大的差异。数据分析师为了研究家庭情况这些因素是不是会成为区分中小学生群体的主要因素,可以从上面这些相关的数据来入手,从而进行客观的分组,再进一步比较所得的分组是不是和实际相符合,那么这个过程中对学生的客观分组就可以采用聚类分析的方法了。

九、判别分析

判别分析作为一种多元分析技术应用相当广泛,和其他的分析技术不太一样,判别分析在数据分析的应用过程中并没有将降维作为主要的任务,而是通过建立判别函数来概括每个不同的维度之间在数据分析应用过程中的差异之处。从而,通过该函数,把新的不知道类别的新元素、新样本进行数据分析角度的归纳分类,那从这个角度来讲的话,判别分析是从另一个角度对数据的分类归纳。

发表评论

您的电子邮箱地址不会被公开。