Python 作为一种面向对象、直译式计算机程序设计语言,具有简单、易学、免费开源、可移植性、可扩展性等特点。Python 拥有丰富而强大的库,而这些正是它在数据分析领域备受重用的关键。Python 数据分析的用处有:检查数据表、数据表清洗、数据预处理、数据提取和数据筛选汇总等等。

检查数据表 – 在 Python 中可以使用 shape 函数来查看数据表的维度;使用 info 函数查看数据表的整体信息;使用 dtypes 函数来返回数据格式;使用 Isnull 对整个数据表进行检查或单独对某一列进行空值检查;使用 unique 函数查看唯一值;使用 Values 函数用来查看数据表中的数值。

数据表清洗 – 在 Python 中可以使用 Dropna 函数用来删除数据表中包含空值的数据;使用 fillna 函数对空值进行填充;使用 dtype 函数查看数据格式;使用 Rename 函数更改列名称,使用 drop_duplicates 函数删除重复值;使用 replace 函数实现数据替换。

数据预处理 – 在 Python 中可以使用 merge 函数对两个数据表进行合并;使用 ort_values 函数和 sort_index 函数完成排序;使用 where 函数完成数据分组;使用 split 函数实现分列。

数据提取 – 主要是使用三个函数:loc、iloc 和 ix,其中 loc 函数按标签值进行提取,iloc 按位置进行提取,ix 可以同时按标签和位置进行提取。

数据筛选汇总 – 在 Python 中使用 loc 函数配合筛选条件来完成筛选功能,配合 sum 和 count 函数还能实现 excel 中 sumif 和 countif 函数的功能。

发表评论

您的电子邮箱地址不会被公开。