当前位置 > CPDA数据分析师 > “数”业专攻 > 数据分析师经常遇见的错误点,你中招了吗?

数据分析师经常遇见的错误点,你中招了吗?

来源:数据分析师 CPDA | 时间:2019-07-11 | 作者:admin

看来你已经决定要进入数据科学这个领域了。数据正在驱动越来越多的业务,世界的联系正在变得越来越紧密,似乎每个业务都需要数据科学实践。因此,对数据分析师的需求是巨大的。更好的是,所有人都承认这个行业的人才短缺。

 

然而成为一名数据分析师并不容易。需要拥有解决问题的能力、结构化思维、编码和各种技术技能才能真正获得成功。如果您并非技术或数学背景,那么通过书籍和视频课程来学习是很好的方式。但是大多数这类资源不会教你行业内需要什么样的数据分析师。

 

这就是胸怀抱负的数据分析师努力缩小自我教育与实际工作之间差距的原因之一。

 

数据分析师经常遇见的错误点,你中招了吗? - 数据分析师经常遇见的错误点,你中招了吗?

 

本文将讨论数据科学爱好者常犯的一些错误(包括我自己都曾经犯过),我也会提供一些资源帮助你避开数据科学之旅上的陷阱。

 

01

只学习理论概念,但不应用

 

数据分析师经常遇见的错误点,你中招了吗?1 - 数据分析师经常遇见的错误点,你中招了吗?

图片来源:cognitive class-YouTube

 

就像我之前提到过的一样,掌握机器学习技术背后的理论是非常好的,但是如果你不去应用它们,它们就仅仅是理论概念。当我开始学习数据科学的时候犯了同样的错误,我学习书本知识和在线课程,但却没有应用它们去解决问题。

 

所以当我有机会应用我所学的知识去解决挑战或问题时,几乎一大半我都不记得了!要学的东西太多了,算法、推导、研究论文等等等等。你有很高的几率失去动力然后半途放弃。我本人见证过许许多多想进入这个领域的人都是这样。

 

02

不了解原理或概念直接进行机器学习

 

数据分析师经常遇见的错误点,你中招了吗?2 - 数据分析师经常遇见的错误点,你中招了吗?

图片来源:伦敦帝国理工学院 - YouTube

 

大部分想成为数据分析师的人是看到了机器学习的相关视频,或一个超级棒的预测模型,抑或是高薪的吸引,然而,想要成为你看到的样子,还需要走很长的路。

 

在将技术应用到问题之前,你应该先了解它的工作原理。这将有助于了解算法的工作原理,以及做些什么可以对其进行微调,还可以帮助你构建现有技术。数学在这里发挥着重要作用,因此了解某些概念总是有帮助的。在日常的企业数据分析师角色中,您可能不需要了解高级微积分,但有高级的整体认识肯定是有帮助的。

 

如果您有一个好奇的想法,或想要进入研究角色,在开始进行核心机器学习之前,您需要了解的四个关键概念是:

线性代数

微积分

统计

概率

 

03

仅依赖认证和学位

 

数据分析师经常遇见的错误点,你中招了吗?3 - 数据分析师经常遇见的错误点,你中招了吗?

图片来源:CIO.com

 

这也是招聘人员的烦恼。自从数据科学变得非常受欢迎以来,到处都有认证和学位。我在 LinkedIn 上看了一下,至少展示了 5 张认证的图片。虽然获得认证并不容易,但只依赖认证是一种灾难。

 

许许多多的胸怀抱负的数据分析师被大多数在线课程倾倒并且完成学习。如果他们为你的数据科学简历添加了一个独特的价值,那就没问题了。但是招聘人员并不关心这些考试 - 他们更看重你的知识,以及你如何在实际工作中应用。

 

这是因为与客户打交道,处理截止日期,了解数据科学项目生命周期如何工作,如何设计模型以适应现有业务框架等等,这些都是作为数据分析师所需要了解的事项。只是认证或学位无法认证你这方面的能力。

 

04

以为机器学习竞赛和实际工作相同

 

数据分析师经常遇见的错误点,你中招了吗?4 - 数据分析师经常遇见的错误点,你中招了吗?

 

这是有胸怀抱负的数据分析师进来最大的误解之一。比赛和黑客松为我们提供了干净规整的数据集。你下载它们并处理这些问题。即使那些具有缺失值列的数据集也不需要花费脑细胞 - 只需要查找补充缺失值即可。

 

不幸的是,现实世界的项目并不是这样的。会有一个端到端的数据管道,涉及与一群人合作。你几乎总是要处理混乱的脏数据。关于花费 70-80% 的时间来整理和清洗数据的传说是真的。这是一个令人精疲力竭的工作,你很大可能不喜欢,但它最终会成为例行公事。

 

此外,我们将在下一点更详细地介绍,更简单的模型将优先于任何复杂的堆叠集合模型。准确性并不总是最终目标,这是您在工作中将学到的最具对比性的事情之一。

 

05

在领域中对模型准确性的关注超过了适用性和可解释性

 

数据分析师经常遇见的错误点,你中招了吗?5 - 数据分析师经常遇见的错误点,你中招了吗?

图片来源:Design Shack

 

如上所述,准确性并非总是业务的目标。当然,一个能够以 95% 的准确度预测贷款违约的模型是非常好的,但是如果你无法解释模型是如何实现的,哪些特征实现了它,以及你在构建模型时的思路,你的客户会拒绝这个模型。

 

你很少会发现在商业应用中使用的深度神经网络。向客户解释清楚神经网络(更不用说深层)如何与隐藏层,卷积层等一起工作是不可能的。首要偏好,并且通常情况下,是永远确保我们能够理解模型背后正在发生的事情。如果您无法判断年龄,家庭成员数量或之前的信用记录是否涉及拒绝贷款申请,该业务将如何运作?

 

另一个关键是你的模型是否适合企业现有框架。如果生产环境无法支持,使用 10 种不同类型的工具和库都会失败。您将不得不采用更简单的方法从头开始重新设计和重新训练模型。

 

06

在简历中使用了太多的数据科学术语

 

数据分析师经常遇见的错误点,你中招了吗?6 - 数据分析师经常遇见的错误点,你中招了吗?

 

如果你曾经这样做过,你会知道我在说什么。如果你的简历现在有这个问题,快去修正!您可能知道很多技术和工具,但只是简单地列出它们会让潜在的招聘经理远离你。

 

你的简历是介绍你已经完成的事情以及你是如何做到的 - 而不是简单罗列的事项清单。当招聘人员查看您的简历时,他/她希望以简洁和总括的方式了解您的背景以及您所取得的成就。如果页面的一半充满了模糊的数据科学术语,如线性回归,XGBoost,LightGBM,没有任何解释,您的简历可能无法通过筛选。

 

07

给予工具和库比业务问题更高的优先级

 

数据分析师经常遇见的错误点,你中招了吗?7 - 数据分析师经常遇见的错误点,你中招了吗?

图片来源:数据科学实验室

 

让我们举个例子来理解为什么这是一个错误。想象一下,你拿到了一个房价数据集,你需要预测房地产的价值。有包括建筑物数量,房间数量,租户数量,家庭规模,庭院大小,是否有水龙头等等 200 多个变量。您很可能不知道某个变量的含义。但您还是构建具有良好准确性的模型,但您不知道的是为什么剔除了这个变量。

 

事实证明,该变量是现实场景中的一个关键因素。这是一个灾难性的错误。

 

拥有扎实的工具和库知识是非常好的,但它只能到此为止。将这些知识与领域内的业务问题相结合,才是数据分析师真正介入的地方。您应该至少了解您感兴趣(或正在申请)的行业中的基本挑战。

 

08

在探索和可视化数据上花的时间不够

 

数据分析师经常遇见的错误点,你中招了吗?8 - 数据分析师经常遇见的错误点,你中招了吗?

 

数据可视化是数据科学的一个很美妙的方面,但许多有胸怀抱负的数据分析师更喜欢略过它直接进入模型构建阶段。这种方法可能会在比赛中有用,但在实际工作中必然会失败。了解你拥有的数据是最重要的事情,你的模型结果会反映出这一点。

 

通过花时间了解数据集并尝试用不同的图表展示,您将更深入的了解您要解决的挑战或问题,你会惊讶地发现你可以获得这么多洞察!可以看到模式和趋势,以及隐藏的规律。可视化是向客户展示洞察的最佳方式。

 

作为一名数据分析师,你需要天生好奇。这是数据科学最棒的事情之一 - 你越是好奇,你会问的问题就越多。这样可以更好地理解你的数据,并有助于解决您一开始不知道的问题!

 

09

不能用结构化的方法来解决问题

 

数据分析师经常遇见的错误点,你中招了吗?9 - 数据分析师经常遇见的错误点,你中招了吗?

图片来源:MindMatters.co.in

 

结构化思维在许多方面都可以帮助到数据分析师:

它可以帮助拆解问题的逻辑结构

它可以帮助您可视化问题的持续方式以及如何设计

它帮助最终用户或客户以逻辑和易懂的方式理解框架的顺序

 

拥有结构化思维的好处还有很多。可以想象一下,不使用结构化思维的话会不直观。你的工作和解决问题的方法都是随意杂乱的,当遇到复杂的问题时你会忘记自己的步骤等等。

 

当您参加数据科学面试时,您将不可避免地需要分析案例,测算、估计等。由于面试时充满压力的气氛和时间限制,面试官会考察你的思维结构如何,以达到最终评估。大多数情况下,对是否获得这份工作来说,这可能是一锤定音的因素。

 

10

一次性尝试学习多个工具

 

数据分析师经常遇见的错误点,你中招了吗?10 - 数据分析师经常遇见的错误点,你中招了吗?

 

我见过太多次这个问题了。由于每个工具提供的独特功能和局限性不同,人们倾向于一次性的学习所有工具。这是个坏主意 - 你最终无法掌握它们中任何一个。工具是执行数据科学的一种手段,但是它们不是最终目标。

 

11

无法保持学习习惯

 

数据分析师经常遇见的错误点,你中招了吗?11 - 数据分析师经常遇见的错误点,你中招了吗?

资料来源:布鲁克斯集团

 

这适用于所有数据分析师,而不仅仅是新人。我们容易分心。在研究了一段时间(比如一个月)之后,然后我们在接下来的两个月休息。在那之后试图回到事物的正规上简直是一场噩梦。大多数早期的概念都被遗忘了,笔记丢失了,感觉就像我们最近几个月都浪费了一样。

 

我也经历过这一点。由于我们在处理各种各样的事情,我们找借口和理由不再学习。但这最终是我们的损失 - 如果数据科学就像打开教科书并且塞满一切一样容易,那么每个人都是数据分析师。它需要一致的努力和学习,人们直到为时已晚才会意识到这一点

 

12

逃避讨论和竞赛

 

数据分析师经常遇见的错误点,你中招了吗?12 - 数据分析师经常遇见的错误点,你中招了吗?

图片来源:面试技巧咨询

 

这是前面一些问题的组合。有胸怀抱负的数据分析师会害羞在线发布他们的分析,因为他们害怕受到批评。但是,如果你从没有收到过社区的反馈意见,那你将不会成长为数据分析师。

 

数据科学是一个重视讨论,思想和头脑风暴的领域。你不能坐在孤岛中工作 - 你需要合作并理解其他数据分析师的观点。同样,人们不参加比赛是因为他们觉得自己不会获胜。这是一种错误的心态!你参加这些比赛是为了学习而不是赢。获胜是奖励,学习是目标。

 

13

不在沟通技巧上下功夫

 

数据分析师经常遇见的错误点,你中招了吗?13 - 数据分析师经常遇见的错误点,你中招了吗?

图片来源:吉姆哈维

 

沟通技巧是数据分析师绝对必须拥有的技能之一,但是关于它的评价和谈论都最少。我至今还没有遇到一个强调沟通技巧的课程。您可以学习所有最新技术,掌握多种工具并制作优秀的图表,但如果您无法向客户解释你的成功,您将会是失败的数据分析师。

 

不仅仅是客户,您有可能与不熟悉数据科学的团队成员合作 - IT,人力资源,财务,运营等。可以肯定的是面试官也会特别注意这一点。

 

假设您使用逻辑回归构建了信用风险模型。作为一个思考练习,花一点时间思考如何向非技术人员解释你是如何得出最终结论的。如果你使用过任何术语,你需要尽快开展这项工作!

 

 

尾声

 

这绝对不是一个详尽的清单 - 胸怀抱负的数据分析师还可能犯许多其他错误。但以上这些是最常见的,如前所述,我的目标是帮助大家尽可能的避免这些问题。