var _hmt = _hmt || []; (function() {   var hm = document.createElement("script");   hm.src = "https://hm.baidu.com/hm.js?8c9c5a8618dc4aea3be27b32962e5871";   var s = document.getElementsByTagName("script")[0];    s.parentNode.insertBefore(hm, s); })();
400 050 6600
数据分析师

手机号

验证码

30天自动登录

不要成为大数据窥探者

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-07-09

数据侦听实质上是一种在数据中查找实际上无法反映真实世界的模式的实践

数据科学家可能会用其他名称知道它,例如过度拟合曲线或混淆信号的噪声,简单的定义听起来好像很容易避免数据监听,但是由于人脑的工作方式以及如何连接看似分散的数据和事件中的连接,这是难消除的偏见之一。

 

数据科学家在进行自由形式的探索性数据分析时特别容易出现数据监听偏见

而不是在挖掘数据之前尝试证明或反驳假设,传统上消除数据监听偏差的方法是在实验开始之前对其进行严格控制,一旦实验开始就追逐有趣的结果,是使自己成为侦探的受害者的好方法,多年来数据监听一直是应用统计领域中难纠正的偏见之一,与其他行业相比从事金融领域工作的数据科学家和统计学家更容易进行数据监听。

 

财务分析中的数据监听偏见

有了足够的时间,足够的尝试和足够的想象力,几乎可以从任何数据集中提取出任何模式,在某些情况下这些虚假模式在统计上很小,孤立地几乎看不到,但是由于财务计算中的微小影响通常会导致投资绩效产生巨大差异,因此数据监听偏差可能会令人惊讶地巨大,在当今的大数据时代,数据科学家和分析师正在建立各种模型来解释和预测我们周围的世界如何运转,可以肯定地说,数据监听一直是一个大问题。

 

打击数据监听器

消除数据监听偏见前沿的一位数据科学家,新的数据侦听偏差技术的详细信息,这些技术可以可靠地将具有可靠统计基础的模型与基于沙子的模型分开,大数据的关键问题之一不是我们是否有足够的数据,而是确定可以预测的数据与不能预测的数据,我成名的部分原因是,我和一些同事一起率先应用了统计技术,使人们能够从那些统计技术中识别出真正的预测因素和模型,尽管没有任何基础,但有些看起来还是可以预测的。

 

因果模型,超自然关系

当然,为什么这些数字表现良好并没有现实依据,这只是愚蠢的运气,但这不会阻止无良推销员继续发挥人们对超自然力量和非凡形而上学联系的信念,人类对内在知识的渴望是强大的,并且由于它,古往今来已经售出了大量的蛇油,数据侦听还会影响那些完全超出其意图的分析师和数据科学家,但也许在其方法上不如应有的谨慎,反数据侦听技术以清除伪造的模型,从而使真正的预测模型大放异彩。

 

当我们处理大数据时,我们要尝试评估许多数据,我们可以将这些数据通过成千上万种类型的模型进行处理

但我们需要某种方法来纠正(当我们)发现看起来具有预测性的事物时自然产生的偏差,以便能够确定是否存在,经济学家和其他分析专家中的金本位制都是因果模型,其中包含了影响给定系统的基本因素,但是在现代世界中,因果模型可能很难建立,因果模型可以真正识别因果因素并对其进行良好衡量,因此可以提供可靠的绩效,但是这样做有很多'前提',这就是为什么预测框架可以更加高效和有效的原因,因为可能有一个预测因子确实是可靠的预测因子,而又没有因果关系,通常我们无法衡量或看到因果关系。

 

与因果模型相比,使用预测模型还有其他优势,包括以下事实:

预测模型更加灵活,使用户能够进行“假设”类型的场景构建,他说在严格的因果模型中很难做到这些,好的因果模型实际上很难开发,而且通常也不灵活,由于有了预测模型,我们可以更好地评估未来的不确定性,我们可以以更准确的方式测量和量化未来潜在结果的范围。

 

在一个复杂的世界中,有许多因素在起作用,一个好的预测模型有时可以给出答案—当然,要考虑到偏差

问题在于这些关系不是简单的关联,而是高度相关的,这可能是多种因素的交集,产生了一些可预测的结果,这就是复杂的技术和算法使我们能够识别那些本来就未知的关系的地方,三个因素使建模框架成为可能:几乎无限的计算能力,大量的数据以及经验丰富的分析专业人员团队,这并不容易这真的很不容易,在这里要组建一支非常优秀的团队并将其与数据的广度,计算能力相结合的挑战就在这里发挥了作用。

 

出乎意料的必须不断重新研究模型的一个领域涉及难以预测的领域之一:消费者购买行为。挑战在于,几乎不可能直接衡量消费者的情绪,但是我们可以衡量直接影响购买行为的因素,”沙利文说。“因此,我们可以绕过对消费者本身的衡量,而无法衡量直接影响消费者行为的结果,从而影响并预测公司的业绩。”

 

建立这样的预测模型并非易事,这就是为什么数据科学家能赚大钱,为什么大数据分析领域到处都是失败项目的故事

试图给“可预测的不可预测”的过程赋予过多的科学确定性,例如消费者的购买决定,可能会使您发疯,人们迷上了数学,算法,模型,数字和数据,事实是,所有这些只是试图预测和理解人类行为的代理,这就是经常丢失的部分-所有这些数字实际上都在服务于试图预测某些可预测的不可预测的事情。

 

对于希望生成预测模型的人,然后意识到并试图消除数据监听偏差是一个值得追求的目标

挑战在于,数据监听涉及我们如何看待不同数据的连接,这终是人类的基本动力,当人们进行数据挖掘时,人们正在寻找关系,不幸的是有时有时会陷入数据监听的世界,这给我们带来生产之类的东西,终终毫无用处。这是能够过滤掉这些问题的方法,这是先进技术的用武之地,当然这是许多处理大数据的人们关注的领域。

 

Prev article

偏向数据可能破坏您的ML模型的三种方式

Next article

CPDA数据分析师沙龙 |数据分析如何在游戏行业落地应用

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务