所谓数据挖掘就是从海量的数据中,找到隐藏在数据里有价值的信息。一般来讲,数据挖掘需要经历定义问题、建立数据挖掘库、分析数据、准备数据、建立模型、评价模型和实施7个步骤。

定义问题。在开始数据挖掘之前最先的也是最重要的要求就是了解数据和业务问题。必须要对目标有一个清晰明确的定义,即决定到底想干什么。

建立数据挖掘库。建立数据挖掘库包括以下几个步骤:数据收集,数据描述,选择,数据质量评估和数据清理,合并与整合,构建元数据,加载数据挖掘库,维护数据挖掘库。

分析数据。分析的目的是找到对预测输出影响最大的数据字段,和决定是否需要定义导出字段。

准备数据。可以把此步骤分为四个部分:选择变量,选择记录,创建新变量,转换变量。

建立模型。需要仔细考察不同的模型以判断哪个模型对面对的商业问题最有用。先用一部分数据建立模型,然后再用剩下的数据来测试和验证这个得到的模型。

评价模型。模型建好后,必须评价得到的结果、解释模型的价值。从测试集中得到的准确率只对用于建立模型的数据有意义。因此,直接在现实世界中测试模型很重要,先在小范围内应用,取得测试数据,觉得满意之后再向大范围推广。

实施。模型建立并经验证之后,可以有两种主要的使用方法。第一种是提供给分析人员做参考;另一种是把此模型应用到不同的数据集上。

发表评论

您的电子邮箱地址不会被公开。