预测模型排列的重要性

预测模型排列的重要性

机器学习可解释性是一个活跃的研究领域,涉及所有有助于提供更多信息预测的技术。预测模型被认为是只为了最大化性能而优化的black-bocks工具。准确性很重要,但在大多数商业案例中,考察为什么机器学习模型做出一个决定是至关重要的。

因此,一个好的权衡包括提供良好的性能和检查预测的工具。我们对显示某些特征对预测值的影响程度的框架感兴趣。实际上,我们正在对我们的模型进行推理,遵循一些启发式方法,然后我们尝试将所有信息放入一个表格中,或者更好地放入一个很棒的图表中。

当我们试图解释任何机器学习模型的输出时,我们应该考虑一个关键方面。可解释性可能不会导致可解释性。如果人们没有足够的知识来理解它,那么采用该领域的最新技术或制作图表可能毫无用处。如果我们必须向业务部门展示结果,就会出现这种情况。一个重载的图形或一些复杂索引的使用,不是所有人都能理解的,使我们的工作无法解释。

在这篇文章中,我们提供了一些图形报告来解释机器学习模型的输出。我们利用排列重要性的简单性和适应性来提供不同的图形化报告,这些报告也可以与使用SHAP方法获得的结果进行比较。

排列重要性:基本用法

排列重要性是每个数据分析师必须知道的特征重要性计算的常用程序。该技术旨在改变目标和特征之间的关系。排列意味着模型性能的下降,这表明模型对特征的依赖程度。

具体而言,置换重要性计算如下。首先,拟合模型并根据一些数据计算基线指标。接下来,来自相同数据的特征被置换并再次评估度量。置换重要性定义为置换度量和基线度量之间的差异。为数据集中的所有列计算这些步骤以获得所有特征的重要性。高值意味着该特征对模型很重要。在这种情况下,值的改组破坏了与目标的关系并导致低质量的预测(高错误)。相反,低值意味着置换度量接近原始度量,即低预测能力。作为一般提醒,重要的是要强调排列重要性也可以假设为负值。当我们在特征改组后获得更好的分数时就是这种情况。对于这些特征,观察到的值是垃圾(即它们对预测产生负面影响)。

特征评估的排列重要性示例(作者图片)

上图在计算排列重要性时非常常见。我们按降序报告平均排列分数(通过多次排列运行获得)以及误差线形式的相对标准偏差。大多数情况下,排列重要性的使用到此结束,显示之前的条形图。这张图告诉我们很多信息,而且所有人都很容易理解。

我们可以再进一步吗?我们能否利用排列重要性的简单性来对我们的预测提供更详细的解释?

我们现在尝试做的是为我们感兴趣的观察提供一个排列重要性分数。通过这种方式,我们可以更详细地了解模型所做的决策。我们利用排列重要性的简单性来展示特征如何对每个样本的预测做出贡献。这种分析对于每种监督任务(回归或分类)都很容易访问,并产生一些很棒的图。

排列重要性:高级用法

让我们从回归场景开始。我们正在执行回归任务,我们有兴趣在给定一些外部数值特征的情况下预测房屋价值。在我们选择的模型后,我们可以轻松计算条形格式的排列重要性(出于演示目的,特征重要性是在训练数据上计算的)。

回归任务中特征评估的排列重要性(作者图片)

在这种情况下,重要性计算为均方误差的偏差。我们重复相同的方法,但不计算列的平均分数。我们只是将原始预测的平方误差与对每个样本的特征进行排列所获得的平方误差进行比较。在这种情况下,我们总结了从多次重复中获得的样本分数,取中值。按照该程序,我们以每列中每个观察的重要性得分结束。我们观察以下样本分数的分布。

回归任务中样本评估的排列重要性(作者图片)

现在可以轻松访问样本分数并可用于提供任何说明性图。例如,我们可以逐个检查每个特征的影响。在下面的热图中,我们展示了每个特征对某些随机实例的预测值的影响程度。

单个样本的排列重要性(作者图片)

为了获得更一般的视图,我们可以绘制所需特征对整个数据的影响。例如,低纬度值和高经度值对预测值有很大影响。

总结所有特征的效果(作者图片)

可以在 2D 中计算相同的表示,以可视化特征之间或特征与目标之间的交互。

样本和多个特征的排列重要性(作者图片)

对于分类任务,我们使用相同的推理和图形表示。假设我们有兴趣根据一些外部数值特征预测葡萄酒的质量。在通过我们选择的模型后,我们很容易计算出排列重要性。我们不能使用均方误差作为排列重要性的评分函数。在这种情况下,一个有价值的替代方案是对数损失(处理多个类别的分类交叉熵)。在这种情况下,之前介绍的内容在这个场景中仍然很有价值。

分类任务中特征评估的排列重要性(作者提供的图像)

我们像以前一样检索每个样本的重要性分数。这里一些观察的负面影响比前一种情况更明显。

分类任务中样本评估的排列重要性(作者图片)

同样,可以以热图格式显示每个样本和每个特征中所有样本的重要性。

总结所有特征的效果(作者图片)

保持相同的可视化格式,可以显示特征对预测类的影响。

总结一个特征对所有类的影响(作者图片)

例如,低挥发性酸度值对标签 3 和 4 的影响很大,而对标签 7、6 和 5 的高酸度值有很大影响。

在这篇文章中,我们介绍了排列重要性的基本概念作为特征重要性计算的过程。尝试利用它的简单性对其进行调整以更好地解释我们的模型输出。结果是我们获得了有用的见解,以图形格式显示,也为非技术人员保留了可解释性。

作者:Marco Cerliani

免责声明:凡未注明来源或者来源为网络的信息均转自其它平台,是出于传递更多信息之目的,并不意味着赞同其观点或证实其内容的真实性。网站只负责对文章进行整理、排版、编辑,不承担任何法律责任。若有侵权或异议请联系我们删除,谢谢。

发表评论

您的电子邮箱地址不会被公开。