全国服务热线:
18106547650

资深数据分析师给新手入门的几点建议

分享到:
点击次数:66 更新时间:2020年10月23日14:05:19 打印此页 关闭

作为经验丰富的数据分析师,以下是一些初级数据分析师的名言:

数据分析是以项目为主导

深度学习是惊人的和革命性的。在某些计算机视觉和自然语言处理任务中,正确地将其视为最佳建模技术。但这绝对不是针对每种情况和每种数据集的最佳技术。

例如,我经常处理用于市场营销,定价,欺诈和类似目的的消费者行为数据。在这个领域,深度学习似乎并没有超越传统方法甚至简单的神经网络。可能是因为该域中的数据往往相对嘈杂,或者可能是因为该数据不具有您在图像/声音/文本数据中看到的同类重复模式。无论出于何种原因,深度学习在消费者行为应用中并未取得很多进展。

然而,尽管经验丰富的从业人员提出警告,但初级数据分析师还是会进来并立即希望尝试深度学习。而且,如果他们不能立即获得良好的结果,他们将尝试寻找不同的体系结构或花费更多时间调整参数,以期获得良好的结果。只有经过几次令人失望的结果项目,他们才最终欣赏“无免费午餐”定理。

“统计数据已经死了,现在一切都与机器学习有关”

充分披露之后,我在职业生涯的早期就犯了同样的错误。在新闻中听到了很多关于机器学习的知识后,我错误地认为统计学不再重要,尽管我的硕士学位是统计学。但是,现在已经从事多个数据科学工作,我逐渐意识到统计数据非常活跃且相关。实际上,我在每一项工作中使用的统计技术至少与机器学习技术一样多。

此外,统计数据倾向于强调推论和因果关系,这对于非技术利益相关者通常非常重要。大多数机器学习模型的仅预测重点可以成为某些客户的突破点。现在,甚至机器学习社区中的许多人也开始意识到这一现实,并更加关注因果关系和解释。

“我需要大数据来建立好的模型”

尽管拥有大量数据可能会有所帮助,但这并不意味着较小的数据集是无用的。我们中那些研究过统计,经济学和类似领域的人都理解这一点,因为我们经常被降级到很小的数据集,但却设法提供了有见地的结果。

即使您有大量数据,您仍可能会遇到诸如偏差和不一致之类的问题。还有很多数据可能是浪费的,因为您可能会丢弃90%的数据,但仍会得到相同的结果。

不幸的是,一些初级数据分析师的心态根深蒂固,每个模型都需要“大数据”,否则就没有意义了。

“为什么要在功能设计上浪费时间?我宁愿花时间在建模上”

Kaggle竞赛中最有用的见解之一是,好的要素工程通常是模型改进的最大驱动因素。如果有的话,在Kaggle中要素工程的效果可能被低估了,因为许多比赛都将数据匿名化,这限制了真正理解要素的能力。

但是,初级数据分析师常常会在忽视原始数据本身的同时陷入模型的困境。他们最终尝试将不同的建模技术与不同的超参数设置进行无休止的结合,以期找到更好的结果。是的,建模可以很酷,有趣和有趣。但是,仅靠良好的建模通常无法获得最佳结果。

“ R比Python更好”或“ Python比R更好”

老实说,即使是经验丰富的专业人士也可能陷入这种琐碎的争论。R和Python都是用于高级分析的非常有用的语言。R更适合统计和社会科学界,而Python更适合机器学习和人工智能界。两者在本质上都不比另一个更好,并且两者之间存在明显的重叠。最终,一个好的数据分析师应该会同时使用两种语言。

20201023140732_73622.png

上一条:做数据分析应该具备哪些技能? 下一条:数据分析之精细化操作!
  • 发表评论
  • 查看评论
文明上网理性发言,请遵守评论服务协议。
首页 上一页 下一页 尾页