成为数据分析师必会的数据可视化种类

发布时间: 2020-12-07

数据可视化是数据分析非常重要的一部分,他能够帮助我们更好的展现数据分析结果,并能够帮我们更好的从复杂的数据中提取出更直观更有效的消息。今天主要介绍以下几种:

1、二维散点图

2、3D散点图

3、配对图

4、直方图

5、箱形图

我们从一个简单的虹膜数据集来打比方,它具有4个特征/独立变量或预测变量——峰长,萼片宽度,瓣长,瓣宽,这意味着它是4维数组。数据集具有150个数据点,并且由于每个类别的数据点数相同(即每个类别50个数据点),因此数据集是平衡的。要在python中实现可视化技术,我们首先必须具有pandas,seaborn,matplotlib和numpy库。

1. 2D散点图:

图1显示了sepal_length和sepal_width的二维散点图,并通过绘制一条直线报告了setosa类的蓝色点易于通过绿色和橙色数据点分离。但是,使用此二维特征组合(sepal_length和sepal_width)不容易将类标签versicolor和virginca分离。在这种情况下,我们可以尝试其他组合,例如,花瓣长度和花瓣宽度。

图1 sepal_length和sepal_width的二维散点图

2. 3D散点图:

它将数据点绘制到3维空间中。3D绘图的缺点是它需要与绘图进行多次交互才能进行解释,因此它不是更方便的可视化方法。

图2来自虹膜数据集的花瓣长度,间隔长度和宽度的3-D散点图

3.配对图:

我们在数据分析的过程中,一般不做4维散点图,而是使用成对图。为了避免使用2D检查大量组合以及使用3D散点图检查许多鼠标交互作用,这将是一个很好的解决方案。具有4、5、6或7个维度的数据集可以轻松地通过成对图进行解释,但是,如果维度大于此值,则不是一个好的选择。为了识别类别标签,图3给出了petal_width和petal_length是两个很有影响力的预测变量,其中setosa可与versicolor和virginica类别线性分离。对角线元素是每个要素的概率密度函数(PDF)。

图3虹膜数据对图

4.直方图:

它是数据点概率分布的表示。可视化一个特征(1D)的更好方法是直方图。让我们以图3所示的sepal_length为例。x轴是sepal_length,其中y轴是sepal_length计数。淡蓝色,橙色和绿色分别是setosa的sepal_length,杂色和virginica花类型的直方图(见图4)。直方图告诉我们在4到6的窗口中有多少个数据点。它表明sepal_length大小为5时存在最大的setosa花(约15个)。直方图的高度显示给定sepal_length时我们发现特定花朵类型的频率。平滑线称为PDF,是直方图的平滑形式。

图4 sepal_length的直方图

5.箱形图:

这是可视化一维散点图的另一种技术。箱形图使用中位数,百分位数和分位数将其放入图中。通过查看图4,我们不知道什么是setosa sepal_length的25、50或75%。要知道,我们使用箱线图,它使用百分位数。在图5中,x轴是花朵类型或对应于每个类别标签的3个框,y轴是septal_length。让我们了解一下绿色框,它告诉您弗吉尼亚州的萼片长度的第25、50和75%。晶须通常是每个类的特征的最小值和最大值,但是,没有标准的绘制方法。此外,箱线图有助于我们编写规则并查找错误的分类或错误。

图5 sepal_length的箱形图

数据分析师们在把数据可视化的时候需要选择合适的方法来进行,各个行业的数据都不尽相同,所以也需要用最合适的方法来进行分析处理。

发表评论

您的电子邮箱地址不会被公开。