当前位置 > CPDA数据分析师 > “数”业专攻 > 数据分析在工业大数据面前,相关性固然重要,但。。。

数据分析在工业大数据面前,相关性固然重要,但。。。

来源:数据分析师 CPDA | 时间:2019-10-24 | 作者:admin

工业数据分析 - 数据分析在工业大数据面前,相关性固然重要,但。。。

 

有人认为,大数据分析的核心思想之一是“是相关不是因果”。我则一直强调:这个观点不适合工业大数据分析。仅看相关性,往往会进入误区。下面谈几种现象和原因。

 

数据分析结果呈现明显相关性的,工业人往往很早就知道;偶尔有一些“发现”是工业人不知道的:却往往是无用的。

 

导致这种现象的本质原因是:优秀的技术人员对生产过程和对象理解很深。所以,你发现的真正的“相关性”他往往是知道的。反之,他不知道的相关性,往往是没有因果关系的相关。比如,“统计数据表明:穿大鞋子的人智商高”——导致这种相关的原因是:有人统计了0到18岁的未成年人。在这些人中,年龄大的智商高、穿的鞋子也大。

 

现实中重要的因素,数据上可能没有相关性。

 

导致这种现象的原因很多。

 

第一个原因是范围限制。比如,如果人们知道某个工艺参数(X)对产品性能(Y)影响很大,就会试图控制X、让它基本保持稳定、让X的变化范围非常小。这时,工艺参数和产品性能的相关性就会非常小。

 

第二原因是X就设定在最优点附近。这意味着X变大或者变小都会让性能Y变差。于是,两者的相关系数接近于0.

 

第三个原因就是系统性干扰。工业对象往往是个系统。当一个参数X1的变化影响性能Y时,人们就可能会找一个变量X2来抵消这种波动。这时,X1、X2都对Y产生影响,但相关系数都接近于0。例如,阀门作为保证流量稳定的控制手段时,管道堵塞会引起阀门开度增大。在管道堵塞不断加重的过程中,阀门开度持续变大、但流量基本不变。故而从数据上看,阀门与流量几乎不存在相关性。

 

分析结果符合预期,也未必能给出正确的指导。

 

假如两个变量X、Y存在显著的相关性,也确实存在线性关系。比如,通过回归,得到两者的关系是Y=K*X。但如果人们真的把X增加1,Y一般不会增加K。特别是:当数据来自于某个工作点附近的时候。这时,自变量的检测误差往往不可忽视,从而导致“有偏估计”,应用时误差大。

 

懂得数据分析的人,首先要知道数据会骗人。如果这些常见的问题都不知道,会白白浪费大量的时间、还会影响自己的信誉。

 

数据分析的目的是为了获得新知识。如果知识不是新的,就没有价值。但新知识是相对“已有知识”而言的。由于工程师对生产过程和对象的理解,往往超出销售人员对市场的理解:工程师对生产的假设往往是确定性的,而销售人员对市场的假设往往是不确定性的。故而,工业大数据分析不同于商务大数据分析。

 

文章来源于蝈蝈创新随笔