当前位置 > CPDA数据分析师 > “数”业专攻 > 数据分析中的一些关键步骤

数据分析中的一些关键步骤

来源:数据分析师 CPDA | 时间:2019-01-04 | 作者:admin

数据科学家”这个词让人联想到一个天才独自工作,应用深奥的公式,为大量数据寻找有用的见解。但这只是一个过程的一个步骤。数据分析本身并不是一个目标,其目标是使业务能够做出更好的决策。数据科学家必须构建产品,使组织中的每个人都能更好地使用数据,使数据驱动的决策能够在每个部门和每个级别进行。

 

数据科学家 - 数据分析中的一些关键步骤

 

数据价值链在自动收集、清理和分析数据、向执行仪表板或报告交付信息和预测的产品中被捕获。当新数据到达时,分析自动连续地运行,数据科学家可以与业务部门一起改进模型,提高预测精度。

 

数据分析关键步骤 - 数据分析中的一些关键步骤

 

而每个公司都根据自己的需求和目标创建数据产品。价值链中的一些步骤是跨组织一致的:

 

1、决定对象:数据价值链的第一步必须在有数据之前发生,业务单元必须决定数据科学团队的目标。这些目标通常需要大量的数据收集和分析。由于我们正在查看数据以推动决策制定,因此我们需要一种可度量的方法来了解业务是否正在朝着其目标前进。关键指标或性能指标必须在流程的早期确定

 

2、识别业务杠杆:业务应该进行更改,以改进关键度量和。每一个目标。如果没有什么可以改变的。无论收集和分析了多少数据,都不会有任何改进。在项目早期识别目标、度量和杠杆可以为项目提供方向,并避免无意义的数据分析。例如,目标可以是提高客户保留率,其中一个指标可以是用户续订的百分比,业务杠杆可以是更新页面、提醒邮件的时间和内容以及特殊促销的设计。

 

3、数据收集:为数据撒网。更多的数据——尤其是来自更多不同来源的数据——能够发现更好的相关性,建立更好的模型,并发现更具有可操作性的洞见。各家公司正在利用自己的网站来密切跟踪用户的点击和鼠标移动,在产品上安装射频识别设备,以便在商店里跟踪用户的移动,就像教练在运动员身上安装传感器,以跟踪他们的移动方式一样。

 

4、数据清理:数据分析的第一步是提高数据质量。数据科学家纠正拼写错误,处理丢失的数据,剔除无意义的信息。这是数据价值链中最关键的一步——即使有最好的分析,垃圾数据也会产生错误的结果并误导业务。不止一家公司惊讶地发现,有很大一部分客户住在斯克内克塔迪。纽约。人口不足的小城镇000人。然而。Schenectady的邮政编码是12345,所以它不成比例地出现在几乎每一个客户档案数据库中,因为消费者往往不愿将真实的细节输入在线表格analv吉娜。除非数据分析师采取步骤验证和清理数据,否则这些数据将导致错误的结论。尤其重要的是,这一步骤将具有可伸缩性,因为拥有连续的数据价值链要求传入的数据将立即以非常高的速率得到清理。这通常意味着过程自动化,但并不意味着人类不能参与其中。

 

5、数据建模:数据科学家构建将数据与业务结果关联起来的模型,并就第一步中确定的杠杆的更改提出建议。这就是uniqaue数据科学家的专业知识对业务成功至关重要的地方——关联数据并建立预测业务结果的模型。数据科学家必须有很强的统计学和机器学习背景,才能建立科学准确的模型,避免陷入毫无意义的关联和模型的陷阱,这些模型如此依赖现有数据,以至于他们未来的预测毫无用处。但是,数据回溯是不够的:数据科学家需要充分了解业务,以便能够识别数学模型的结果是否有意义和相关性。

 

6、培养数据科学团队:自数据科学家是出了名的难以雇用,这是一个好主意来构建一个数据科学团队,让那些有一个高级学位统计关注数据建模和预测,而其他人在朝鲜队获得基础设施工程师,软件开发人员和ETL experts-build必要的数据收集的基础设施,数据管道和数据产品,支持通过模型流化数据,并以报告和仪表板的形式将结果显示给业务。这些团队通常使用大型数据分析平台(如Hadoop)来自动化数据收集和分析,并将整个过程作为产品运行。

 

 

7、优化和重复:数据价值链是一个可重复的过程,并导致对业务和数据价值链本身的持续改进。基于模型的结果,业务将对驱动杠杆进行更改,数据科学团队将度量结果。在数据科学团队改进其数据收集、数据清理和数据模型的同时,业务可以根据结果决定进一步的操作。业务可以越快地重复这个过程,它就可以越快地进行路线修正并从数据中获得价值。理想情况下,经过多次迭代后,模型将生成准确的预测,业务将达到预定义的目标,结果数据价值链将用于监视和。在每个人都着手解决下一个业务挑战时