数据分析师解决问题的案例研究(上)

发布时间: 2020-08-21

关于数据分析师如何解决问题有两个神话:一个是问题自然存在,因此数据分析师面临的挑战是使用算法并将其投入生产。另一个神话认为,数据分析师总是尝试利用最先进的算法,更高级的模型等更好的解决方案。尽管这些并不是完全没有根据的,但它们代表了关于数据分析师如何工作的两个常见误解:一个在“执行”方面过分强调,而另一个则夸大了“算法”部分。

显然,这些神话并不是数据分析师实际解决问题的方式。在我看来,为数据分析师解决问题的方法是:

更多关于“如何从业务环境中抽象出问题”,而不仅仅是“处理特定任务”

更多关于“使用算法解决问题”,而不仅仅是“使用最佳算法来解决问题”

更多关于“迭代地交付业务价值”,而不仅仅是“实施代码并称其为一天”。

话虽如此,我观察到解决问题的过程通常涉及四个阶段,我想分享这四个阶段是什么,以及它如何与案例研究一起发挥作用,然后如何实现?正确的心态。

故事始于……

我的第一份工作是在一师经营汽车价格和信息网站的公司中做数据分析师,该公司于2014年5月进行了首次公开募(IPO)。这是一次很棒的经历,我生动地记得那天周围的每个人都为该公司的诞生欢呼雀跃。上市公司。作为一名上市公司的数据分析师,数据分析师的收入开始受到广泛关注,尤其是在八月份发布了第一份季度收益报告之后。7月初,税务部门的主管来到了数据分析师的办公区,看来他没有什么好消息可分享。

“数据分析师遇到麻烦了,数据分析师在销售上遇到了一些问题,数据分析师需要您的帮助。”

以下是一些相关的上下文:公司的收入是基于这样的事实而产生的:它为汽车经销商带来了更多的销售。为了获得应得的佣金,数据分析师需要将车辆的销售与正确的客户匹配。如果数据分析师的数据提供商可以告诉数据分析师哪个客户购买了哪辆汽车,那么匹配就完成了,不需要额外的工作;但是,问题在于,其中一个数据提供者无法提供一对一的销售记录:必须分批处理(可视化显示如下所示的“批处理”),这会变得更加困难,并且不确定要知道哪个客户买了哪辆车。这给数据分析师的数据分析带来了很大阻碍。

销售团队在花费了过去一个月的时间来解决问题后,只能手动恢复该数据提供商2%的销售额。因此他们来寻求数据分析师的帮助。显然,这是一个亟待解决的紧迫问题,因此数据分析师数据分析师是逃不过这个项目了。

这个数据分析过程数据分析师一共分成4各阶段,我先讲讲数据分析师的前2个数据分析阶段:

【阶段1】了解问题,然后使用数学术语重新定义

这是数据分析中解决问题的第一步。关于“了解问题”部分,需要清楚地识别痛点,以便一旦痛点得到解决,问题就应该消除。关于“定义”问题部分,通常这就是为什么问题需要数据分析师的帮助。

对于数据分析师在做数据分析时遇到的问题是:数据分析师无法将每辆售出的车辆分配给客户,计算出销售亏损多少

痛点在于:考虑到成千上万的批次需要匹配的销售,找出谁在给定的批次中购买了汽车是手动且不准确的,这非常耗时且不可持续。

用数据分析术语来说,“重新定义”的问题是:给定一个具有客户C1,C2,..,Cn的批次,以及出售的车辆信息V1,V2,…,Vm,数据分析师需要一个自动化的解决方案来准确地确定正确的反映实际购买事件的匹配对(Ci,Vj)。

【阶段2】分解问题,确定逻辑算法解决方案,然后进行构建

有了重新定义的问题,数据分析师可以看到这是在给定的客户和车辆成批的约束下的“匹配”练习。因此,我将问题进一步分解为两个步骤:

步骤1.计算给定车辆P(C | V)的客户的购买可能性

步骤2.根据可能性,将汽车分配给批次中最有可能的客户

现在,数据分析师可以进一步确定每个解决方案。

步骤1.概率计算

为简单起见,数据分析师假设此批次中有三个客户(c1,c2,c3),并且以销售的形式提供了一个车辆(v1)信息。

P(C = c1)表示c1购买任何汽车的可能性。假设没有每个客户的先验知识,那么他们购买任何汽车的可能性应该是相同的:P(C = c1)= P(C = c2)= P(C = c3),它等于一个常数(例如1/3 in这个情况)

P(V = v1)是v1被出售的可能性,因为在此批次中显示,因此应该为1(100%的可能性被出售)

由于只有一位客户进行购买,因此可以将这种可能性扩展为:

P(V = v1)= P(C = c1,V = v1)+ P(C = c2,V = v1)+ P(C = c3,V = v1)= 1.0

对于每个项目,给定以下公式

P(C = c1,V = v1)= P(C = c1 | V = v1)* P(V = v1)= P(V = v1 | C = c1)* P(C = c1)

数据分析师可以看到P(C = c1 | V = v1)与P(V = v1 | C = c1)成正比。现在,数据分析师可以得出概率计算的公式:

P(C = c1 | V = v1)= P(V = v1 | C = c1)/(P(V = v1 | C = c1)+ P(V = v1 | C = c2)+ P(V = v1 | C = c3))

关键是获得每个P(V | C)的概率。这样的公式可以用语言来解释为:特定顾客购买车辆的可能性与顾客购买该特定车辆的可能性成比例。

上面的公式看起来太“数学”了,因此让我将其放在一个直观的上下文中:假设三个人在一个房间里,一个是音乐师,一个是运动员,一个是数据分析师。有人告诉您,这个房间里有一把小提琴属于其中之一。现在猜,您认为小提琴的所有者是谁?这很简单,对吧?鉴于音乐师拥有小提琴的可能性较高,而运动员和数据分析师拥有小提琴的可能性较低,因此小提琴属于音乐师的可能性更大。下面说明了“数学”思维过程。

现在,让数据分析师将概率放入业务环境中。作为一个在线汽车定价平台,每个客户都需要至少生成一个车辆报价,因此,数据分析师假设客户可以合理地代表其报价的车辆。然后,可以从公司在历史记录中已经积累的现有数据中了解这种P(V | C)概率,包括谁在何时生成车辆报价以及他们最终购买了哪种车辆。我不会进一步详细说明,但关键是数据分析师可以学习P(V | C),然后计算每批中所需的概率P(C | V)。

步骤2.车辆归属

一旦数据分析师获得了每辆车出售给客户的预期概率,第二步就是归因过程。假设批次中只有一辆售出的车辆,那么这个过程很简单;但是,如果批次中有多个售出的车辆,则可以采用以下两种方法之一:

(直接归因)仅使用计算出的概率P(C | V),始终将车辆归因于可能性最高的客户。在这种方法下,可以将两辆车分配给同一客户。

(轮循方式)假设每个客户最多购买一辆车:一旦将一辆车归于客户,则在下一轮归因之前将两者都删除。

现在,数据分析师设计了一个两步算法来解决关键挑战,现在该测试性能了!鉴于存在历史报价和销售数据,可以轻松地模拟“创建随机批次”,“将销售附加到批次”并尝试“从给定的批次信息中恢复销售”的过程。这种模拟提供了一种评估模型性能的方法,数据分析师估计可以以高精度(> 95%)收回超过50%的销售额。数据分析师为实际数据集部署了该模型,结果与数据分析师的预期非常吻合。

收入团队对上述解决方案感到非常满意:与〜2%的回收率相比,50%的回收率是25倍以上!从业务影响的角度来看,该收入直接添加到了数据分析师的第一季度收入报告的底线中,数据分析团队的贡献是巨大的。

发表评论

您的电子邮箱地址不会被公开。