来源:数据分析师 CPDA | 时间:2017-12-22 | 作者:admin
虽然数据挖掘外接程序让创建和试验模型变得简单有趣,但在需要可重复、可操作的结果时,必须有足够的时间制定基本业务需求以及获取和准备数据。 本节提供了一个清单,可帮助对您的调查进行计划,并且描述常见问题。
数据准备清单
我已确定了明确定义的输出。
具有针对结果使用方式的计划。 不同类型的模型具有不同的输出。 时序模型生成将来的序列值,这些值易于理解和操作。 其他模型生成复杂集合,行业专家必须对这些复杂集合进行分析才能产生最大价值。
我知道输入数据的含义、数据类型和分布。
花一些时间浏览并了解您的源数据。 查看模型的人应了解所使用的输入数据类型,知道如何解释这些数据类型和变化形式以及平衡和质量,这一点非常重要。
我了解我们所具有的数据完整性级别及所需级别。
不良数据可能会影响模型的质量,甚至导致模型完全不能生成。 您应充分了解数据的含义和分布以及它成为此状态的方式。 您需要了解是否可以通过标记、截断数值数据类型或通过汇总对数据进行简化以及这样是否合适。
我知道源数据的存储位置、来源以及处理方式。此过程可根据需要轻松重复。
一次性数据集适于进行试验,但是,如果您想要将模型用于实际生产,要提前考虑如何将清理过程应用于操作数据。 此外,如果具有操作数据,您在获取这些数据之前需要知道它们是如何更改的 - 您需要知道如何对这些数据进行舍入或汇总的。
我们已经商定所需预测粒度并已将数据改为输出这些单位。
请在准备数据前决定所需结果粒度,例如,是要每天的销量预测还是每季度的销量预测。 应考虑对相同数据设置不同的数据结构,以便处理不同的汇总级别。
我们的实验设计是可重复且可再现的。
考虑用于对您的结果进行分析和验证的策略,并且计划捕获数据快照,以便确保您可以追溯数据结果。 如果使用随机种子,结果可能略有不同。 这会使比较和验证模型比较困难。
我们拥有验证结果所需的领域知识,或者可以联系行业专家寻求建议。
花费一些时间来验证变量、模型和结果。 获取专家帮助以便评估交互和结果。 但是,不要假设反驳证据。 要对新发现和意外发现持开放的态度。