数据分析师的日常工作是什么?

数据分析师的日常工作是什么?

数据分析师每天做什么?一个受欢迎且必须知道的问题

※我们通过经验丰富的数据分析师提供的5个详尽而有见地的答案,从数据分析师的角度分析此问题

我天生就是一个好奇的人。每当我遇到一个以前从未听说过的概念时,我都迫不及待地要研究它的工作原理。在我自己的数据分析之旅中,这非常方便。

但是在我第一次涉足数据分析领域之前,我一直对数据分析师每天实际做什么感到好奇。我应该一直只是简单地建立模型吗?还是经常引用有关花费70-80%的时间来清理数据的说法是真的吗?

我敢肯定,您也已经(或至少想知道)问过这个问题。数据分析师的角色可能是“ 21世纪最艰巨的工作”,但是这日常需要做什么呢?

我决定对此进行研究。我想开阔视野,了解数据分析师如何看待他们在不同领域(例如NLP)中的作用。这有助于我更深入地了解我们的角色,以及为什么在数据分析方面我们应该始终阅读不同的观点。

因此,这里列出了最重要的5个答案,以帮助您了解数据分析师的典型例程。准备感到惊讶–在数据分析师的日常任务中,构建模型并不是主要(也是唯一)功能!

机器学习是非常面向过程的 – Mike West

我喜欢这个答案,因为它很简洁,指向重点而且很简单。作者甚至设计了流程图,并以精美的方式说明了他的思考过程。这是他的完整答案:

机器学习非常面向过程。因此,我总是在以下图片之一中:

机器学习工程师在前两张图片(或阶段)中花费大量时间。有趣的部分确实处于第三阶段,但这只是现实世界中发生的一小部分。

现实世界中要牢记的一些关键事项:

1.几乎所有应用的机器学习都受到监督。这意味着我们针对结构化数据集构建模型

2.数据争用是现实世界中发生的大部分事情

3.当您听到监督一词时,请考虑分类和回归。我的大多数模型都是分类问题

4.建立模型约占我工作的20%。是的,就是这样!

5.许多中小型公司根本不使用深度学习。为什么?因为像XGBoost这样的结构化数据算法每次都会胜出

6.我所做的一切都是程序化的

7.大多数实际数据都位于关系数据库中。制作查询以提取所需数据将是您的工作

8.大数据是非结构化数据。如果必须针对大数据构建模型,那么您需要学习另一套技能

9.云在这里留下来。我将BigQuery用于我的大型结构化数据。大多数大型机型无法在笔记本电脑上构建

10.电脑是单语的。他们只会说数字。当您将数据传递给模型时,即传递的是高度结构化的,经过良好清洗的数值数据集

数据分析师日常角色的按百分比细分 – Vinita Silaparasetty

我真的很喜欢Vinita对可视化的使用。每个数据分析任务的按百分比说明都是很有帮助且有见地的。Vinita还利用她的经验来解释数据分析师所做的分步工作。这是必读的答案!

与普遍的看法相反,数据分析并非全是魅力。CrowdFlower的以下调查结果准确总结了数据分析师的典型一天:

涉及很多回溯。有时,您甚至甚至需要能够预测删除/添加变量的后果。

·收集数据集:数据是数据分析的生命线,因此我们花费大量时间来整理数据。在极少数情况下,某些项目可能已经拥有大量数据

·清洁和整理数据:这是整个过程中最耗时且至关重要的步骤。它对最终结果有很大的影响。通常,在此步骤之后,曾经大量的数据会减少,因此我们可能需要收集更多的数据以进行有效的培训

·数据挖掘:这是检查大型现有数据库以生成新信息的一种做法。一旦数据被组织并存储在数据库中,我们最终可以通过在数据中查找模式来开始从中获取价值

·构建训练集和测试集:一旦我们拥有大量数据,就需要将其分为训练集和测试集。训练集是用于发现潜在预测关系的一组数据。它包含有关预期输出的所有信息。测试集是用于评估预测关系的强度和效用的一组数据。它包含混合变量

·精炼算法:我们从骨架算法开始。这是非常基本的,并大致定义了预期的输出。经过几次会话后,将记录准确性,精度等,并对算法进行优化以使其效率最大化。

小型公司的数据分析师观点 – Justin Fister

这是一个极好的答案,我可以与之联系。请注意,机器学习是数据分析师工作中最令人期待的方面,仅占总时间的5%!就像Vinita一样,他也用百分比解释了他的任务。这是贾斯汀的观点:

与NLP相关的任务(15%)。毫无疑问,PaperRater的自动校对技术要求大量使用解析器,标记器,正则表达式和其他NLP优点,作为核心算法和反馈模块的一部分

机器学习(5%)。这往往是最令人愉快的部分。数据清理,特征提取/工程/选择和模型构建

报告和分析(10%)。运行查询,审查分析并协助制定战略决策

数据管理(5%)。设置和管理数据库服务器,包括MySQL,Redis和MongoDB。较大的项目可能需要Hadoop或Spark

通用软件开发(40%)。许多数据分析师都有计算机科学的背景,因此,如果您有合适的背景,请期待参与。API集成,Web开发以及任何我可以增加价值的地方。即使是在AI初创公司,大部分开发都不会涉及AI

其他(25%)。这包括各种各样的任务,包括博客文章,营销,管理,技术文档,技术支持,网站复制,电子邮件,会议等。

数据分析师”有点神话 – Tim Kiely

作者Tim Kiely使用维恩图解释什么是数据分析。只需看下面的维恩图,它就会使您大吃一惊。蒂姆还通过对通用定义有些矛盾的观点来谈论数据分析师应该是什么样的人。这是蒂姆的答案:

在我看来,“数据分析师”有点神话。并不是说它们不存在,但是它们比人们普遍理解的稀有得多,并且比规则更是例外。

我将其比喻为互联网泡沫的“ Web Master”称号–这些假定的人可以进行全栈编程,前端开发,市场营销以及所有工作。所有这些角色/技能始终都是专业的,并一直保持到今天。

“数据分析师”应该是数据库架构师,了解分布式计算,对统计数据以及某些业务或领域专业知识有深入的了解。这些技能中的任何一项什么时候都可以成为职业,这会问很多问题。

与我合作的数据分析师通常拥有博士学位。是AI或机器学习领域的专家,并且是有效的交流者,这使他们能够指导分析师,DevOps人员,程序员和DBA随时支配以解决数据驱动型解决方案的问题。他们概述了所需的解决方案,并将其留给团队来填补空白。

从事NLP任务的机器学习工程师 – Evan Pete Walsh

让我们深入研究一下特定的机器学习专业。我的最爱之一- 自然语言处理(NLP)!我想在这里提出机器学习工程师的观点(每个数据分析师都应该熟悉的角色)。查看Evan的完整回复:

目前在NLP上进行大部分工作,包括意图分类和实体提取。这对我来说是典型的一天:

开始工作,拉起GitHub并检查ZenHub板(类似于Jira,但更酷)。昨晚我有一些模型正在我们的服务器上进行训练,我应该收到一封电子邮件,说明它们已完成。我做到了!

我可能会花几分钟测试这些新模型,然后调整一些参数,然后重新开始训练过程

在剩下的日子里,我通常采用低头编码,要么在后端Python应用程序上工作,该Python应用程序将为我们的一种产品提供AI,要么实现我想尝试的新算法

例如,最近我阅读了一篇关于耦合模拟退火(CSA)的论文,并且想尝试调整XGBoost的参数以替代网格搜索。CSA是模拟退火(SA)的一种广义形式,它是一种优化函数的算法,该函数不使用任何有关函数导数的信息

不幸的是,我找不到Python的实现,因此我决定编写自己的实现。两天后,我已经向PyPI提交了我的第一个软件包!

数据分析师的角色确实是多方面的,不是吗?许多有抱负的数据分析师认为他们将主要整天都在构建模型,但事实并非如此。

一个典型的数据分析项目涉及各种各样的任务,您会发现自己每天都在工作。我非常喜欢这一点,因为它为学习新概念并在现实世界中应用开辟了道路。

发表评论

您的电子邮箱地址不会被公开。