当前位置 > CPDA数据分析师 > “数”业专攻 > 数据分析的分歧和趋同阶段

数据分析的分歧和趋同阶段

来源:数据分析师 CPDA | 时间:2019-07-12 | 作者:admin

464 - 数据分析的分歧和趋同阶段

 

 

在数据科学社区中经常有关于哪些工具最适合进行数据科学的讨论。在许多关于数据分析工具的讨论中,发现缺少的一件事是承认数据分析倾向于通过不同的阶段推进,并且不同的工具在每个阶段中都或多或少有用。

事实上,在某个阶段非常有用的工具在其他阶段可能不那么有用,甚至是有害的。

 

double diamond data analysis - 数据分析的分歧和趋同阶段

 

用于数据分析的双菱形

设计思维文献中常见的一种形象是“双钻石”,它是设计过程的模型。我认为这个模型可以有效地帮助我们考虑数据分析。

 

在这张图中,我确定了数据分析的四个阶段,它们交替出现在不同的和收敛的思维形式之间。x轴大致是“时间”或分析的时间轴。y轴表示可能性的范围。这不是一个数值图,但你懂的。每颗钻石的宽部分意味着有许多可能性在考虑之中,而窄的“瓶颈”则意味着应该有一件或几件事情在考虑之中。

 

所有这些与数据分析有什么关系?让我们首先仔细看看这四个阶段。

 

0827 best infographics data vizualisation 492 - 数据分析的分歧和趋同阶段

 

第一阶段:探索

第1阶段的目标是探索数据中固有的可能性。这部分是所有数据分析师都熟悉的。

数据集放在你的膝盖上,有很多事情要做,有很多问题要回答。你得到了正确的数据集吗?所有的数据都在那里吗?它们的分析格式正确吗?这通常是发生大量数据争吵的地方。我们必须考虑正在提出什么问题,以及这些数据是否适合这个问题(至少在没有做出不合理假设的情况下)。我们还可以考虑是什么问题激发了数据的创建。

 

在这一点上,我们可能认为我们有一个问题要问,但通常这个问题只是模糊的形式或需要进一步的信息。这就是我们需要数据来帮助我们的地方。例如,一个重要的一般性问题是“这些数据甚至可以用来回答我的问题吗?”“我们需要看看数据来弄清楚这一点。我们看待数据的方式会因人、环境和许多其他因素而异。

 

不管具体情况如何,我们都可能需要制作大量的图表、摘要和表格。我们需要查看数据,甚至在Excel这样的程序中,我们也需要了解数据。

 

这一阶段的分析有很大的分歧,正在考虑如何提出问题和采取何种方法的许多可能性。根据我的经验,我绘制了大量的图表,并研究了个体变量和二元关系的各种转换。我从来没有数过,但如果在这个阶段有成千上万的情节,我也不会感到惊讶。这是分析的“草图”阶段,比喻地说,但有时确实如此。图或表的草图通常是一种有用的规划工具。

这个阶段的分析几乎总是很有趣的,因为我们打开了可能性。但所有美好的事物最终都有终结的一天。

 

1305D5X5 2050.jpg - 数据分析的分歧和趋同阶段

 

阶段2:细化问题

第二阶段是具有挑战性的,因为它涉及到决策和选择。没有人喜欢那样做。不可避免的是,你在第一阶段所做的大部分工作将留在剪辑室的地板上。你可能平等地爱你所有的孩子,但你仍然需要选择一个最喜欢的。原因是没有人有足够的资源进行每一种调查。此外,采取每一种方法可能都不会那么有效。你最好把你的问题弄得更加尖锐和精炼。这将简化未来的分析,并使人们(包括你)更有可能根据你提供的结果采取行动。

 

这个分析阶段是收敛的,需要将许多不同的想法综合成一个连贯的计划或策略。使用你所做的数千个图表、表和摘要并决定一个问题规范并不容易,令我惊讶的是,我没有看到很多工具专门用于帮助完成这项任务。尽管如此,这里的目标是对我们试图实现的目标以及如何使用数据来实现目标进行合理详细的说明。它可能是这样的:“我们将用这个结果和这些预测因子来拟合一个线性模型,以回答这个问题”,或者“我们正在使用这个特性集合来构建一个预测模型,以优化这个度量”。

 

在某些设置中(例如咨询中),你可能需要正式地将此规范写下来,并将其呈现给其他人。无论如何,你都需要根据你对阶段1中的数据的研究以及任何可能相关的外部因素来证明它是正确的。在此阶段结束时,对你的受众有一个敏锐的了解就变得很重要了。

 

3812b31bb051f81951bb06abdeb44aed2f73e7b1 - 数据分析的分歧和趋同阶段

 

阶段3:模型开发

这个阶段是大多数统计学家和统计教育项目的基础。这里,我们有一个相当明确的问题,一个清晰的问题,一个合适的数据集,我们要设计一个解决方案。但这并不意味着我们只是按下按钮,等待结果出来。首先,结果会是什么样子?我们想要制作什么样的摘要,它们将如何呈现?有一个详细的规范是好的,但它不是最终的。当我还是一名软件工程师的时候,我们经常得到我们应该构建的软件的非常详细的规格说明。但即便如此,仍有许多选择可供选择。

 

因此,开始了另一个不同的分析阶段,在这个阶段,我们通常构建模型并评估它们的性能和健壮性。这是数据分析师版本的原型。我们可以查看模型是否合适,并查看与我们在问题规范中列出的期望相关的事情是如何进行的。我们可以考虑对我们对世界和数据的假设进行敏感性分析或其他检查。同样,可能有许多表和图表,但这次不是数据,而是结果。这里重要的是我们正在处理具体的模型,而不是在阶段1中完成的粗略的“草图”。

 

由于此阶段的工作可能最终以某种形式出现在最终产品中,所以我们需要开发一个更正式的工作流和流程来跟踪我们正在做的事情。版本控制以及可编写脚本的数据分析包(它们可以用代码描述我们的工作)都发挥了作用。尽管这个阶段的许多方面可能还没有被使用,但是在开发工作时,在脑海中有再现性是很重要的,这样就不必在事后“附加”(通常是一个痛苦的过程)。

 

2013.03.14 blogWordle - 数据分析的分歧和趋同阶段

 

阶段4:叙述

在数据分析的最后一个收敛阶段,我们必须再次在第三阶段所做的众多工作中做出选择。我们必须在众多的模型和结果中进行选择,并决定最终的产品是什么,无论是论文、报告、网站还是幻灯片。

 

为了做出这些选择,发展分析的叙述是有用的。构建叙事性是对结果的维度缩减,它允许你从各种结果中选择跟随你的叙事性的结果。简单地“显示数据”是第一个,实际上是不可能的,第二个也是不可取的。这是信息超载,很少能让观众做出明智的结论。最终,分析人员必须决定一个叙述,并选择讲述这个故事的各种结果。

 

选择一个叙述并不意味着其他一切都被抛弃了。分析的许多部分往往不能成为主要产品,但可以以某种形式作为“补充材料”。许多演讲者经常在演讲结束时把备份幻灯片藏起来,以防出现问题。有些人可能不同意叙事的选择,但这并不意味着不需要做出选择。

 

数据分析师经常遇见的错误点,你中招了吗?11 - 数据分析的分歧和趋同阶段

 

影响

在这一点上,值得回顾的是,所有的模型都是错误的,但有些是有用的。那么,为什么这个数据分析模型有用呢?我认为,在一些领域,该模型可以作为一种解释工具,并突出显示未来工作的可能途径。

 

作者:Roger Peng