当前位置 > CPDA数据分析师 > “数”业专攻 > 数据挖掘准备清单

数据挖掘准备清单

来源:数据分析师 CPDA | 时间:2017-12-22 | 作者:admin

虽然数据挖掘外接程序让创建和试验模型变得简单有趣,但在需要可重复、可操作的结果时,必须有足够的时间制定基本业务需求以及获取和准备数据。 本节提供了一个清单,可帮助对您的调查进行计划,并且描述常见问题。

 

数据准备清单

 

我已确定了明确定义的输出。

具有针对结果使用方式的计划。 不同类型的模型具有不同的输出。 时序模型生成将来的序列值,这些值易于理解和操作。 其他模型生成复杂集合,行业专家必须对这些复杂集合进行分析才能产生最大价值。

  • 您想要何种类型的输出?
  • 您是否可以将输出定义为单个列或单个值,或者定义为其他可操作结果?
  • 根据哪些标准您会知道该模型是有用的?
  • 您将如何使用和解释这些结果?
  • 是否可以将新的输入数据映射到期望结果?

 

我知道输入数据的含义、数据类型和分布。
花一些时间浏览并了解您的源数据。 查看模型的人应了解所使用的输入数据类型,知道如何解释这些数据类型和变化形式以及平衡和质量,这一点非常重要。

  • 您具有多少数据? 是否有足够的数据进行建模?数据无需非常庞大 – 规模较小且平衡性较好的数据可能更好。
  • 数据是来自多个数据源还是单个数据源?
  • 数据是否已处理和清理? 是否有更多输入数据可用?
  • 您是否知道在接收数据前是如何对数据进行操作的 – 是如何对数据进行截断、汇总或转换的?
  • 输入数据是否具有可用于定型的一些示例结果?

 

我了解我们所具有的数据完整性级别及所需级别。
不良数据可能会影响模型的质量,甚至导致模型完全不能生成。 您应充分了解数据的含义和分布以及它成为此状态的方式。 您需要了解是否可以通过标记、截断数值数据类型或通过汇总对数据进行简化以及这样是否合适。

  • 数据标签:是否清晰正确?
  • 数据类型:是否合适,是否更改过?
  • 是否已对数据进行了排序或清理,或者放弃了错误的数据?是否已验证了没有重复项?
  • 将如何处理缺失值? 缺失值是否有意义?
  • 是否对数据源进行了验证,查看在导入过程中是否引入了任何错误?输入存储于何处? 它的可用时间有多长?是否有数据字典? 是否可以创建一个数据字典?
  • 如果合并了多个数据集,是否检查了是否存在表示相同数据的多个列?

 

我知道源数据的存储位置、来源以及处理方式。此过程可根据需要轻松重复。
一次性数据集适于进行试验,但是,如果您想要将模型用于实际生产,要提前考虑如何将清理过程应用于操作数据。 此外,如果具有操作数据,您在获取这些数据之前需要知道它们是如何更改的 - 您需要知道如何对这些数据进行舍入或汇总的。

  • 是否想要能够重复进行试验?
  • 将使用哪些工具以支持数据分析的格式准备数据? 这一过程是否可自动执行,还是需要有人在 Excel 中查看和清理数据?
  • 如果您的数据来自于其他系统,您是否能够捕获和跟踪已应用的筛选器?
  • 数据处理框架是否还应用计算机学习算法、执行测试以及直观地展示结果?

 

我们已经商定所需预测粒度并已将数据改为输出这些单位。
请在准备数据前决定所需结果粒度,例如,是要每天的销量预测还是每季度的销量预测。 应考虑对相同数据设置不同的数据结构,以便处理不同的汇总级别。

  • 当前度量单位或时间单位是什么?您要在结果中使用的单位是什么?
  • 是否可为所有输入数据定义基本单位(例如 天/小时/分钟/说明调用)?是否想要汇总到更高单位?
  • 是否以一致的方式对类别进行了标记? 是否可以轻松地添加或删除类别?

 

我们的实验设计是可重复且可再现的。
考虑用于对您的结果进行分析和验证的策略,并且计划捕获数据快照,以便确保您可以追溯数据结果。 如果使用随机种子,结果可能略有不同。 这会使比较和验证模型比较困难。

  • 如果您对数据进行了许多自定义更改,下次您要生成模型时将会发生什么?
  • 是否已定义了应该用来处理输入和获取预期输出的手动过程或许可流程?
  • 您是否已决定将种子用于模型?

 

我们拥有验证结果所需的领域知识,或者可以联系行业专家寻求建议。
花费一些时间来验证变量、模型和结果。 获取专家帮助以便评估交互和结果。 但是,不要假设反驳证据。 要对新发现和意外发现持开放的态度。

  • 域知识是否可有助于筛选数据和减少输入干扰?
  • 域专家是否可以帮助理解和解释结果以及建议改进?