数据分析的步骤是什么样的?

发布时间: 2021-01-12

数据分析成为未来职业的发展趋势,无论什么岗位都需要拥有数据分析的能力,因此数据分析培训学习成为了潮流,学数据分析的人越来越多,学习的过程中遇到的问题也很多,专业的答疑,是职业生涯最重要的一环。

步骤1:获取数据。

许多数据编制者,包括政府,大学,企业,非营利组织和个人,都免费提供了大数据集,

选择一个有趣的主题,并为该主题找到免费的结构化数据集,然后将其放入可以使用的计算机上。恭喜你!你刚刚完成:

步骤2:清理数据。

始终保持原始输入数据不变。如果要处理数据并对其进行更改,请对数据副本进行处理。大多数大数据集都有不一致之处。Linux命令行以及sed和awk等工具的学习曲线相对较低,可以帮助你快速入门。像Openoffice或Excel这样的电子表格程序可以帮助你识别小数据集(少于100万条记录)中的错误。看一下例如柱状完整性。确保正确解析了字段定界符。标为“ URL”的列是否仅显示URL?该字段中是否有电子邮件地址,IP地址,公司名称或看起来像乱码的垃圾?你可能需要限制小数位数,以使浮点值易于阅读,或者在许多其他擦洗机会中固定日期戳字段。Python CSV模块为清理较大的数据集提供了极大的灵活性,将其放在待办事项列表中即可进行研究。学习一点Python及其数据分析生态系统和R知识,将帮助你成为一名初学者,并一直到专业专家阶段。

第3步:浏览数据。

按不同的列标题对它进行排序-查看两端的极端值和中间的最大值,在不同的列上运行直方图,计算数字字段的平均值,对其求和,熟悉数据,直观地查看完整记录和整个记录数据列,运行数据透视表等。尝试查找数据问题-你可以解决它们吗?你可以从数据中收集哪些见解?数据是否讲故事?探索数据可能会发现一个问题,需要你返回到步骤2进行清理。你应该计划在第2步和第3步上花费大量时间。记下数据发现的问题以及解决问题的解决方案。这些问题可能会通过不同的数据集再次出现。随着编程技巧的提高,你可以创建脚本来自动执行许多重复的清理和探索过程。

步骤4:为数据建模

如果你对数据分析一无所知,那么你将需要学习建模。此步骤有很多不错的在线资源。建模通常用于预测。也许从经典的逻辑回归模型开始。有很多打包的工具可以简化模型的利用。但是,优秀的数据分析师将了解模型的工作原理。该模型不应为黑匣子。从理论上应该理解它的内部工作。这将需要一些数学运算。
建模非常迅速。这是你将花费数年研究和部署的阶段。有数十年来久经考验的真实建模方法,而且学术界正在探索一些前沿方法,数据分析目前是一个非常热门的领域(需求强于供应),并且可能会持续很多年。学术界,研究,科学和企业界都有机会。你应该使自己熟悉的术语,包括但不限于:神经网络,深度学习,机器学习,SVM,随机森林,贝叶斯分类器以及其他众多研究领域。为不同的业务目标量身定制了不同的分类器,并且阅读,试验和部署这些模型和工具将极大地增加你的知识。

步骤5:解释数据:

解释阶段应该回答(或帮助回答)首先促使数据建模的问题。在这里,你可以交流有关已选择要获取的数据集的所有知识。能够有效地将数据见解传达给你的利益相关者对于你的数据分析事业至关重要。

发表评论

您的电子邮箱地址不会被公开。