数据分析模型的使用

数据分析模型的使用

结构化数据和非结构化数据是大数据的两种类型,这两者之间并不存在真正的冲突。客户如何选择不是基于据结构,而是基于使用它们的应用程序:关系数据库用于结构化数据,大多数其他类型的应用程序用于非结构化数据。

在实际应用中将模型投入生产则是另外一回事。它正在从几乎没有责任的统计研究人员转变为具有全部责任的一线客户支持。分析模型是一成不变的,而最初的假设在被推到生产中却发现脱离实际而显得有些天真。

结构化模型:

  仅使用结构化数据的模型最糟糕。业务中某人的单个变量更改可能会对您的模型产生重大变化。我知道一位数据科学家正在与银行客户争吵,那里的培训/验证数据很好,但是由于结构变量的显着变化,导致实现的实际生产消耗困难。

非结构化模型:

  深度学习或非结构化模型也不是安全的。说生活很棒,因为您只有一项功能并不能保护您免受源漂移的影响。您正在使用的音频,图像或视频的类型可能开始向新的体制转变。由于发生上游ASR置信度阈值已更改(假设没有影响),因此我们对模型发生了偏移。

生产警报:

  我之前已经实施了生产警报,发现问题的最佳方法是在某种SPC图表系统中跟踪正常模型的输出。概率或输出的偏斜或偏移可以让我们注意到传入功能已经发生改变。

  有一次,我建立了一个非常复杂的模型来检测硅晶片厂的石材抛光机的问题。我部署新模型的第一天晚上,工程师们没有发现任何异常,并关闭了我的神经网络警报。然而两个小时后,机器坏了,引起了一次重大偏移。经理们早上很生气,因为晚上的工程师没有更认真地对待我的模型。我那时感到很自在,但现在发现我失败了。他们忽略了模型是我的错。

  这是一个示例,其中有两个目标相互竞争的客户。经理对误报非常敏感(缺少工具问题),而工程师对误报敏感(为我们提供了额外的工作)。我们需要了解客户的消费,以及如何处理错误和模型接受。

发表评论

您的电子邮箱地址不会被公开。