当前位置 > CPDA数据分析师 > “数”业专攻 > 数据分析中离不开的创造力

数据分析中离不开的创造力

来源:数据分析师 CPDA | 时间:2019-05-14 | 作者:admin

dianzi xinpian 004 - 数据分析中离不开的创造力

 

并不是每个分析结果都是不同的。例如,许多功率计算是相同的或非常相似的,并且可以在某种程度上实现自动化。然而,在不同的项目中,如何使用或解释这些功率计算可能会有很大的不同。即使是同一研究设计的相同计算,在不同的项目中也可以做出不同的解释。对于其他类型的分析,如回归建模或机器学习,也是如此。

 

创造性是必然需要的,根据上下文、资源和受众对分析的限制,我们可能认为所有事物都在“数据之外”。创建数据的上下文、用于进行分析的可用资源(时间、金钱、技术)以及结果将呈现给哪些受众,这些都在确定数据分析师为分析数据而开发的策略方面起着关键作用。为了执行产生有用输出的策略,分析人员经常需要使用一些创造力。

 

上下文的作用

有问题的上下文对我们如何构建问题、如何将问题转化为数据问题以及如何收集数据有很大的影响。上下文也让我们回答关于为什么数据以这种方式出现的问题。对于同一类型的度量,相同的数字可以根据上下文有不同的解释。

 

缺失的数据

几乎每个数据集中都有缺失的数据,当数据分析师面对缺失的数据时,最重要的问题是“为什么数据会缺失?”要对造成数据丢失的机制有一定的了解,以便制定适当的策略来处理丢失的数据(即估算、输入等),但数据本身往往提供的关于该机制的信息很少;一般情况下,该机制是在数据之外编码的,甚至可能不是写下来的,而是存储在最初收集数据的人的头脑中。

 

以一个包含实验治疗和安慰剂的双臂临床试验为例。有时通过实验治疗,会有副作用,人们会退出试验(甚至死亡),因为他们无法处理副作用。结果是,实验组的数据缺失比安慰剂组多,现在,数据本身将揭示出两组之间数据缺失率的差异,很明显,治疗组的数据缺失率更高。但数据不会揭露他们退出的确切原因,根据试验的性质和所问的问题,可能有几种不同的方法来处理这个问题。推测可能是可行的,也可能是某种匹配方案。如何进行的确切选择将取决于哪些外部数据可用、丢失了多少数据、如何使用结果,以及其他许多因素。

 

在这种情况下,数据分析师的工作都是评估情况、查看数据,获得关于上下文和数据丢失原因的信息,然后确定适当的前进路径。

 

受众方面

受众是另一个主要影响我们如何分析数据和呈现结果的关键因素。在一种极端的情况下,如果受众是另一名数据分析师,你可能希望做一个相对“轻”的分析(可能只是一些预处理),但是准备数据的方式要便于将数据分发给其他人来进行自己的分析。但另一位数据分析师可能并不关心你的可视化、模型或者结果;他们宁愿拥有自己的数据,并做出自己的结果。

 

数据分析师必须对受众的需求,背景和接收数据分析结果的偏好进行合理评估,这需要一些创造性的猜测。如果分析师可以找到受众,那么分析师应该更关心如果最好地呈现结果的问题。

 

资源和工具

数据分析师可能必须在一组资源限制下工作,为数据的处理设置边界。第一个也是最重要的限制可能是时间。一个人只能在分配的时间内尝试有限东西,或者某些分析可能需要很长时间才能完成。因此,除非可以协商更多的时间和资源,否则可能需要做出妥协。工具也将受到限制,某些模型和软件组合可能不存在,并且可能没有时间从头开发新工具。

 

这样的话数据分析师就需要必须估计出可用的时间,并确定它是否足以完成分析。如果资源不足,那么分析师必须协商更多资源或调整分析以适应可用资源。当存在严重的资源限制时,几乎肯定需要创造力,以便从可用的资源中挤出尽可能多的生产力。

 

stratgy1 - 数据分析中离不开的创造力

 

上下文、受众和资源都可以对数据分析施加不同类型的约束,迫使分析人员使用不同类型的创造力来完成工作。本文中提到的也只是其中一部分而已,所有这些因素都将同时发挥作用。约束环境(以及它们之间的各种交互)的复杂性快速增长,从而给分析人员带来越来越大的压力,迫使他们创造性地思考,以产生有用的结果。