var _hmt = _hmt || []; (function() {   var hm = document.createElement("script");   hm.src = "https://hm.baidu.com/hm.js?8c9c5a8618dc4aea3be27b32962e5871";   var s = document.getElementsByTagName("script")[0];    s.parentNode.insertBefore(hm, s); })();
400 050 6600
数据分析师

手机号

验证码

30天自动登录

干净的数据是有效机器学习的基础

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-08-26

公司将机器学习发现的隐藏细分市场扩大了一倍,从而使收入增加了10

我们可以将AI应用于我们的产品线并获得类似的结果吗?组建数据科学团队时主要考虑了这种情况。为他们提供了业务用例和问题陈述,并有望为他们带来出色的成果,增加收入并降低公司成本但是现实是,数据工程师和科学家经常花费数周,有时甚至是数月,试图清理,整理和理解由客户的商务智能团队移交给他们的数据。

 

我们每月向该云提供商支付一定的费用用于存储数据

我们是否可以对这些闲置数据进行某种AI或机器学习,从而赢得董事会并提升PR?数据科学团队表现不佳的原因多种多样,但是经过充分研究的研究和思想文章认为,脏数据不仅会影响机器学习的结果,而且还会对脏数据的性能以及数据科学团队的性能产生重要影响,简而言之,在对数据集应用任何算法或技术之前,在数据集中具有质量和一致性至关重要。

 

典型的机器学习流程

既然我们已经确定大部分工作时间都花在了数据清理上,那么让我们看一下它在整个机器学习流程中的适合位置,从较高的角度来看,机器学习会在以下或多或少的顺序步骤中发生(不考虑反馈循环):1、源发现 2、数据准备与隔离 3、特征提取 4、造型 5、模型训练与调整 6、预测 7、模型部署 将主要是数据准备和隔离。

 

错误数据集的特征

所有好的数据集都是相同的;每个不良数据集都有其自身的不良特征,这意味着无论数据集还是用例,总会有一个数据清理步骤,没有任何自动化或边缘案例分析可以解决这一问题(也许有对高度不干净和肮脏的数据进行了训练的ML模型可以解决此问题),使数据集不干净的常见数据。这些错误的原因通常是由于数据生命周期中某些时候的人为错误造成的,但是,有些错误也可以由机器生成。

 

架构不一致想象一下,您在一个足球协会的数据团队中,该协会已要求该国所有足球俱乐部发送球队中球员的详细信息

俱乐部指南是将个人详细信息发送到csv文件中(没有时间构建Web界面或API)。现在,有些俱乐部正按预期在文件中创建了列标题(名称,年龄,出生地等)。但是,有些俱乐部的名称有所不同,错过了一列,或添加了一些新列(姓氏列和姓氏列)。因此,作为足球协会的一部分,您将花费额外的时间来将数据协调为通用模式。

 

缺失数据

由于只是缺失的值,因此调试起来非常简单。科学家通过添加默认值或基于某些假设来计算值来清理此问题。下游ML模型中丢失数据的影响可能很大。如果不加以检查,则可能导致过度拟合和训练不足的ML模型。

 

进行数据清理

清理数据规模所需的工作随数据集的广度和深度而定,我想带您回顾一下一个场景,在该场景中,我反复训练了多轮数据清理工作,同时训练了一个简单的ML模型,目的是建立一个自动语音识别系统,该系统可以识别09之间的语音数字。

 

实现模型涉及三个步骤:

1、收集数据集并创建训练和测试集

2、在训练数据集上训练模型

3、根据测试数据集的预测测试模型准确性

 

文本文件的修补程序列表将其作为可选文件,我们犯了一个错误

我们不应该要求这个,相反正确的方法是根据音频文件的名称生成此文件,我们为参与者提供了一个选择,这样他们在录制音频时会非常严格,你说的就是你的文件,但是到那时,我们从一半的参与者那里收到了文本文件,对于发送文件的后半部分,格式方面存在一些挑战。

 

资料准备清理数据集后,我们必须执行另一个数据准备步骤,以使数据集可用于机器学习

这一步并不像清理数据集那样痛苦,但是在机器学习开始之前,这又是另一个障碍,这些文件都可以使用音频文件和文本文件提供的信息生成,我们花了的时间编写Python脚本来生成这些文件,完成此操作后,我们花了整整两天的时间来运行ML算法自定义,模型调整并将其部署到云中。

 

CPDA企业内训

https://www.cpda.cn/trainning/

 

cpda项目数据分析师为什么要更名?

https://www.chinacpda.com/question/4504.html

 

海南智企数据分析师事务所

https://www.chinacpda.com/shiwusuo/14202.html

 

王兴海老师 高级经济师

https://www.chinacpda.com/shizi/9433.html

 

用数据改变人生,获得CPDA证书仅是一个开始

https://www.chinacpda.com/shouquanzhongxin/14854.html

 

大数据专业就业前景及就业方向如何?

https://www.chinacpda.com/wenti/11706.html

 

CPDA数据分析师学习方式和课程体系

https://www.chinacpda.com/xuexiarea/18089.html

 

数据分析师的职业进阶之路

https://www.chinacpda.com/zixun/4048.html

 

《大数据人才培养体系标准》正式发布!

https://www.chinacpda.com/dongtai/9669.html

 

CPDA数据说给你带来精彩的视频案例讲解

https://www.chinacpda.com/videocenter/

 

数据分析师考核

https://www.chinacpda.com/examine/

 

数据分析师职业规划

https://www.chinacpda.com/career/

 

CPDA数据分析师授权中心

https://www.chinacpda.com/train/

 

数据分析相关动态

https://www.chinacpda.com/data/?page=4

 

数据分析师为您解答更多问题

https://www.chinacpda.com/qa/

 

数据分析案例展示

https://www.chinacpda.com/case/

 

查找您周边省份授权培训中心:

https://www.chinacpda.com/train/

 

2020CPDA数据分析师线上报名:

https://www.chinacpda.com/baoming.php

 

CPDA数据分析明星导师:

https://www.chinacpda.com/startutor/

 

CPDA数据分析师培训优秀学员:

https://www.chinacpda.com/student/

 

客服热线:400-050-6600

商业联合会数据分析专业委员会

 

 

Prev article

CPDA数据分析师专属沙龙 |学霸亲授 考试通关秘笈

Next article

渠道销售策略:将产品推向市场需要数据的支撑

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务