当前位置 > CPDA数据分析师 > “数”业专攻 > 这些数据分析方面的问题,你是否也曾遇到

这些数据分析方面的问题,你是否也曾遇到

来源:数据分析师 CPDA | 时间:2018-10-09 | 作者:admin

数据准备可能是任何类型的严肃数据分析中最重要的步骤。虽然在一篇文章中试图涵盖如此广泛的知识领域是荒谬的,但我们已经准备了一份快速清单,可以在准备分析数据时进行检查。希望这有助于优化数据准备过程,并确保涵盖所有重要步骤和基础。

但作为一般指导原则 - 任何类型的数据分析都要从熟悉要回答的业务问题和想要衡量的KPI开始。

对业务需求的深刻理解将能够在以后将这些需求映射回想要执行的数据和分析类型,而无法理解业务预期会看到的内容可能会导致很多以后浪费时间和精力 - 所以不要跳过这一步!

一旦掌握了业务期望作为分析的最终产品的内容,就会想要开始深入研究数据。要做的第一件事就是找到它。

第一组问题是指组织数据存储的物理位置。对于小型部署,这可以像一系列电子表格一样简单; 对于较大的数据库,可能正在查看多个数据库,Hadoop数据湖,云源或数据仓库。

还需要了解是否具有访问数据所需的权限,以及将要处理的数据类型或格式。

想在此阶段提出的问题是:

我的组织使用哪些数据源?

我是否拥有访问数据所需的权限或凭据?

每个数据集的大小是多少,我需要从每个数据集中获取多少数据?

我对每个数据库中的基础表和模式有多熟悉?

我是否需要所有数据进行更细粒度的分析,还是需要一个子集以确保更快的性能?

由于差异,数据是否需要标准化 - 例如,通过将来自SQL数据库的数据与NoSQL源(如MongoDB)相结合?

我是否需要分析来自外部源的数据,这些数据位于组织的数据存储之外?

通常需要手动转换或操纵数据以进行有效分析。当数据不一致或包含重复信息时,或者希望以新方式对数据进行分组时,当各种表或数据集对相同信息使用不同格式时,这可能是相关的。

这是想要问的问题:

对于每个单独的来源 - 它是完整的吗?准确?最新?

在目前的状态下,我可以使用数据来回答我的业务问题吗?

如果存在不一致或冗余值,我需要做些什么来清理数据?是手动更改一些值还是需要更系统的方法?

我是否能够更改其原始位置的数据,还是需要在辅助环境中完成(例如,无权更改生产数据的情况)?

如果正在使用许多不同的数据源和表,则需要对数据建模,使仪表板用户能够通过连接不同表中的相关字段来快速接收即席查询的答案。数据模型中各个实体之间的关系将决定未来分析能够回答的查询类型,以及它的效率。

首先询问:

从业务角度来看,哪些字段适合将数据连接在一起?

连接这些字段后会发生什么关系?会想要避免多对多的关系。

我的数据模型会扩展吗?

在未来的道路上添加数据源并对模型进行更改有多容易?

我们可以简化关系而不影响性能吗?请注意,这可能取决于正在使用的数据准备和分析工具。

对于某些类型的更复杂的分析,可能希望在现有表格之上创建新表格。这方面的一个例子可以是漏斗分析,可以在其中获取有关正在进行的多阶段过程的基本信息,并创建各种记录将被分类的桶。可以帮助了解自己是否准备好的问题示例包括:

我是否需要为要执行的分析类型创建汇总表?

我是否需要从我正在使用内部或外部联接的表中连接数据,或者将这些表组合起来创建一个新表?

虽然在某些情况下可以通过查询生产数据库来创建报告和分析,但大多数BI工具和实现都依赖于在辅助环境中创建数据的合并,这将作为分析数据库。

想问的问题包括:

本地或云服务器是否将我的数据移动到拥有足够的软件和硬件来处理我正在处理的数据量?这两者有点依赖,因为合适的软件可以降低硬件成本。

我需要以什么频率导入数据?这取决于原始数据变化或增长的速率。

导入数据将如何影响我的生产环境?

自豪地宣布数据准备工作完成之前,需要确保最终结果是准确的,并且在此过程中没有犯任何错误。要验证数据,请提出以下问题:

它在一般水平上是否有意义?

我所看到的措施是否符合我对业务的了解?

在我的分析环境中进行的计算是否返回与在原始数据上手动执行的相同计算相同的结果?

在完成上面的整个清单后,将识别数据,转换数据,构建数据模型,将数据移动到分析数据库并验证结果。这可能是几小时,几天或更长时间 - 取决于正在使用的数据量及其复杂性。

如果一切顺利,很高兴 - 所以继续开始构建一些仪表板!并阅读我们的仪表板设计指南,以确保遵循核心原则,这将有助于用数据讲述清晰易懂的故事。