数据分析的方法(三)

数据分析的方法(三)

今天把剩下的几种数据分析的常见方法给大家介绍一下。

十、主成分分析

主成分分析在数据分析中应用的不是很多,它是多元统计分析中用来分析数据的一种方法,是通过矩阵变换用一组数量更少的特征来对样本进行描述,从而可以降低数据的维度。主成分分析在数据分析中的应用主要目的是减少决策变量的数量来达到降维的效果,另外一个就是防范多重共线性。

主要流程为:

1、数据预处理。

2、主成分计算。

3、判断要选择的主成分数目

4、选择并解释主成分

5、计算主成分得分

6、结果可视化

十一、因子分析

因子分析在数据分析中主要是把多个实测变量转换为少数几个综合指标,也叫作潜变量,主要用于寻找数据的内在逻辑和降维。因子分析通过研究个变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来把它基本的数据结构表现出来,这几个假想变量能够把原来的多变量的主要信息也直观的反映出来。

例如,在某个企业的形象或品牌形象的研究中,消费者可以通过一个有24个指标构成的评价体系来评价百货商场的24个方面的优劣。那消费者主要关心的是三个方面,即商店的环境、商店的服务和商品的价格。那么数据分析中的因子分析法可以通过以上的24个变量,找过反映商店环境、商店服务水平和商品价格的三个潜在的因子,从而对商店进行综合性的评价。

十二、时间序列分析

时间序列除了运用在数据分析领域之外也广泛应用于统计、信号处理、模式识别、通信工程、控制工程、数学金融、天气预报等等,以及主要涉及时间测量的的任何应用科学和工程领域。

数据分析中的时间序列分析包括用于分析时间序列数据的方法,以便提取有意义的统计数据和数据的其他特征。他具有自然的时间顺序,比如说,可以通过参考其各自的教育水平来分析人们的工资,这其中个体的数据是可以以任何顺序输入其中的。

十三、生存分析

数据分析中的生存分析主要指的是对生存资料的分析。那生存资料指的是什么呢?所谓的生存资料是指描述寿命或者一个发生时间的数据,一个人的生存时间的长短和其他许多因素相关,那么研究每个因素之间和生存时间有没有直接或见解的关系以及关联程度的大小,这也是生存分析的其中一种应用。

十四、典型相关分析

在数据分析里面,典型相关分析是对互协方差矩阵的一种理解,是利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。典型现骨干分析的基本原理是为了从总体上出发,把握好两组指标之间的关系,这个关系一般指的是相关关系,随后分别在两组变量中提取有代表性的两个综合变量U1和V1,利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。

十五、ROC分析

ROC曲线指受试者工作特征曲线,在数据分析中主要用来反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,他通过将连续变量设定出多个不同的临界值,从而把一系列的敏感性和特异性计算出来。

主要用途是一种是最佳的诊断界限值,可以查出任意界限值对疾病的识别能力。另外一种就是在数据分析中用来比较两种以上不同诊断试验对于疾病的识别诊断能力。

十六、其他分析方法

多重响应分析、举例分析、项目分析、对应分析、决策树分析、顺境网络、系统方程、蒙特卡洛模拟等。

以上的十六种方法都是在数据分析中比较常见的,也是用的比较多的,在遇到不同的企业项目和行业数据的时候,需要正确选择的方法去进行数据分析

发表评论

您的电子邮箱地址不会被公开。