怎样才能成为一名数据分析师?

发布时间: 2020-09-15

我大约4年前开始学习数据分析。我没有真正的编程背景。这主要是针对与我处于同一职位的人们。
关于学习数据分析的许多建议都是从“首先学习python”或“首先学习线性代数课程”开始的。这个建议很好,但是如果我遵循它,我将永远不会学会任何数据分析

1.学会爱数据

没有人谈论学习动机。数据分析是一个广阔而模糊的领域,这使得它很难学习。真的很难。没有动力,您最终会中途停下脚步,并相信自己无法做到这一点,而错误就不在您身上,而在教学中。

您需要一些能够激发您继续学习的东西,即使现在是凌晨1点,公式也开始变得模糊,您想知道这是否是神经网络最终有意义的夜晚。

您需要一些能够使您找到统计,线性代数和神经网络等主题之间的联系的东西。某些事情将使您无法应对“接下来我要学什么?” 题。

我进入数据分析的切入点是预测股市,尽管当时我还不知道。我编写的用来预测股市的第一个程序几乎没有统计数据。但是我知道他们的表现不佳,所以我日夜工作以使他们变得更好。

我痴迷于提高程序的性能。我沉迷于股市。我正在学习热爱数据。而且因为我正在学习热爱数据,所以我有动力学习任何我需要的东西,以使我的程序变得更好。

我知道,并不是每个人都着迷于预测股市。但是,找到使您想学习的东西真的很重要。

可以找出有关您的城市的新奇有趣的事物,映射互联网上的所有设备,找出NBA球员的真实位置或其他任何内容。学习数据分析的最好之处在于,有无数有趣的事情需要做,这都是关于提问和寻找答案的方法。

通过根据您的需求量身定制学习来控制您的学习,而不是相反。

2.边干边学

了解神经网络,图像识别和其他前沿技术非常重要。但是大多数数据分析都不涉及其中任何一个。以下是一些重要准则:
您90%的工作将用于数据清理。

真正了解一些算法比了解一些算法要好。如果您非常了解线性回归,k均值聚类和逻辑回归,可以解释和解释其结果,并且实际上可以从头到尾完成一个数据项目,那么您将比如果您知道每一个都更容易使用单一算法,但不能使用它们。

大多数时候,当您使用算法时,它将是库中的一个版本(您很少会编写自己的SVM实现-花费的时间太长)。

所有这些意味着,最好的学习方法是从事项目。通过从事项目,您将获得立即适用和有用的技能。您也有建立投资组合的好方法。

启动项目的一种技术是找到所需的数据集。回答一个有趣的问题。冲洗并重复。

这里是一些寻找数据集的好地方,可以帮助您入门:

100多个有趣的统计数据集-rs.io

数据集存档•/ r /数据集

另一种技术(也是我的技术)是发现一个深层次的问题,预测股市,但仍然可以分解为一些小的,可实施的步骤。我首先连接到yahoo finance API,并提取了每日价格数据。然后,我创建了一些指标,例如过去几天的平均价格,并用它们来预测未来(请注意,此处没有实际算法,仅是技术分析)。效果不好,所以我学了一些统计数据,然后使用线性回归。然后,我连接到另一个API,逐分钟收集数据,并将其存储在SQL数据库中。依此类推,直到算法运行良好。

很棒的是我有学习的背景。我不仅学习SQL语法,还用它来存储价格数据,因此学习语法的能力是我的10倍。没有应用程序的学习不会很好地保留下来,也不会使您做好进行实际数据分析工作的准备。

3.学习交流见解

数据分析家经常需要向其他人展示他们的分析结果。做到这一点的技巧可能是好的科学家和出色的数据分析家之间的区别。

交流见解的一部分是很好地理解主题和理论。另一部分是了解如何清楚地组织结果。最后一步是能够清楚地解释您的分析。

很难有效地交流复杂的概念,但是您应该尝试以下一些操作:

创建一个博客。发布数据分析的结果。

尝试向不那么精通技术的朋友和家人传授有关数据分析概念的知识。令人惊讶的是,有多少教学可以帮助您理解概念。

尝试在聚会上讲话。

使用github托管所有分析。

活跃于Quora,DataTau等社区和/ r / machinelearning。

4.向同伴学习

与他人合作可以学到多少,真是太神奇了。在数据分析中,团队合作在工作环境中也非常重要。

这里的一些想法:

在聚会上找人一起工作。

贡献开源软件包。

向写有趣的数据分析博客的人发送消息,以查看您是否可以协作。

尝试Kaggle 看看你能不能找到队友。

5.不断提高难度

您对正在进行的项目完全满意吗?您是一周前最后一次使用新概念吗?现在是时候去做更困难的事情了。数据分析是要攀登的陡峭山峰,如果您停止攀登,那么永远都很难做到。

如果您发现自己太舒服了,请参考以下一些建议:

处理更大的数据集。学习使用火花。

看看是否可以使算法更快。

您如何将算法扩展到多个处理器?你能做到吗?

尝试教一个新手去做与现在相同的事情。

底线

这并不是确切的操作路线图,而是学习数据分析时要遵循的粗略准则。如果您将所有这些事情都做好,就会发现您自然在发展数据分析专业知识。

我通常不喜欢“这里有很多东西”的方法,因为它使弄清楚下一步该怎么做非常困难。我已经看到很多人在面对大量教科书和MOOC时放弃学习。

我个人认为,只要以正确的心态来学习数据分析,任何人都可以学习数据分析。
我也是dataquest.io的创始人,一个可帮助您在浏览器中学习数据分析的网站。它封装了本文中讨论的许多想法,以创造更好的学习体验。您可以通过分析有趣的数据集(例如CIA文件和NBA球员数据)来学习。如果您不知道如何编码,这不是问题-我们教您python。我们教python是因为它是对初学者最友好的语言,已在许多生产数据分析工作中使用,并且可以用于多种应用程序。

一些有用的资源

当我从事项目时,我发现这些资源很有帮助。请记住,资源本身没有用

发表评论

您的电子邮箱地址不会被公开。