400 050 6600
数据分析师

手机号

验证码

30天自动登录
当前位置:首页 - Q&A问答

Q&AQ&A问答

如何清理数据,CPDA数据分析师来告诉你。

来源: / 作者: / 时间:2022-10-09

虽然数据清理使用的技术可能会根据公司存储的数据类型而有所不同,但您可以遵循以下基本步骤为您的组织制定框架。

第1步:删除重复或不相关的观察结果
从数据集中删除不需要的观察,包括重复的观察或不相关的观察。重复观察在数据收集过程中最常发生。当您组合来自多个地方的数据集、收集数据或从客户端或多个部门接收数据时,就有可能创建重复的数据。消除重复工作是这一进程中需要考虑的最大领域之一。

不相关的观察是当你注意到观察结果不适合你试图分析的特定问题时。例如,如果您想要分析关于千禧一代客户的数据,但您的数据集包括老一辈,您可以删除那些不相关的观察。这可以使分析更有效,并尽量减少对主要目标的分心—以及创建更易于管理和性能更好的数据集。

第2步:修复结构错误
结构性错误是指当您测量或传输数据时,注意到奇怪的命名约定、拼写错误或不正确的大小写。这些不一致可能导致错误的类别或类的标签。例如,您可能会发现“N/A”和“不适用”都出现了,但它们应该作为同一个类别进行分析。

步骤3:过滤不需要的异常值
通常情况下,会有一次性的观察,乍一看,它们似乎不符合您所分析的数据。如果您有一个合理的理由去删除一个异常值,比如不适当的数据输入,那么这样做将有助于您所处理的数据的性能。然而,有时候一个异常值的出现会证明你正在研究的理论。记住:一个异常值的存在并不意味着它是错误的。需要此步骤来确定该数字的有效性。如果一个异常值被证明与分析无关,或者是一个错误,考虑删除它。

步骤4:处理丢失的数据
您不能忽略丢失的数据,因为许多算法不接受丢失的值。有几种方法可以处理丢失的数据。这两种方法都不是最优的,但都可以考虑。

作为第一种选择,您可以删除缺少值的观察值,但是这样做会删除或丢失信息,所以在删除信息之前要注意这一点。
作为第二个选项,您可以根据其他观察结果输入缺失的值;同样,数据可能会失去完整性,因为您可能是根据假设而不是实际观察进行操作。
作为第三个选项,您可以更改数据的使用方式,以有效地导航空值。
步骤5:验证和QA
在数据清理过程的最后,作为基本验证的一部分,你应该能够回答以下问题:

a, 这些数据有意义吗?
b, 数据是否遵循其字段的适当规则?
c, 它是否证明或驳斥了你的工作理论,或带来了什么洞察力?
d, 你能从数据中找到趋势来帮助你形成下一个理论吗?
e, 如果不是,是因为数据质量问题吗?

由于不正确或“肮脏”的数据而产生的错误结论可能导致糟糕的业务策略和决策。当CPDA数据分析师意识到你的数据经不起推演时,错误的结论可能会导致报告会议的尴尬时刻。在此之前,在组织中创建一种高质量数据的文化是很重要的。为此,数据分析师应该记录创建这种文化可能使用的工具,以及数据质量对您的意义。

Prev article

CPDA的考试费用是多少?

Next article

和CPDA数据分析师学习:客户调查,收集数据,增加销售额。

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务