当前位置 > CPDA数据分析师 > “数”业专攻 > 数据分析及预处理

数据分析及预处理

来源:数据分析师 CPDA | 时间:2018-12-24 | 作者:admin

数据分析及预处理主要分为数据分析、数据审核与数据修正三个部分,数据预处理的主要目的是保证数据能够满足大量数据的同意处理规则。

微信截图 20181224142856 - 数据分析及预处理

 

数据分析是对数据可用性进行统一检查和统计分析的过程。在关系数据库中,数据库将使每个表分析,一方面,为了使优化器可以选择合适的执行计划,另一方面,对于某些查询可以直接使用统计信息返回的结果的分析,如COUNT(*),Oracle提供的数据仓库构建工具OwB数据分析统计信息更全面,主要记录数量、长度的最大、最小值,最大值,针对统计点中唯一值字段的最小长度、唯一值个数、平均值、中位数等空值个数。

 

在分析过程中还需要统一每个唯一值的信息,这对于发现一些异常数据非常有用。上述统计数据可以联系的统计分析,统计,统计数据将会用一些数据来描述一些数据集,或样本集的特点,我们可以使用像owB ETL工具,也可以借助统计学知识分析、统计图有一个非常有用的工具盒(箱线图),也称为箱线图,框画。您可以尝试使用方框图来表示数据的分布特征,以便更直观地向用户显示数据的质量分布。


一般的箱线图结构如图:

 

微信截图 20181224144945 - 数据分析及预处理

 

箱线图有很多中表现形式,一般情况下,数据集的上四分位数(75%:Q3)和下四分位数(25%:Q1)分别为中矩形框的上四分位数和下四分位数。中间的水平线表示数据集的中值(50%:Q2),箱线图中使用“+”表示数据集的平均值,箱的上下半部分分别伸出两条线。

 

这两条线的末端也被称为“触须”,一般距离盒子的距离为1.51QR (Q3 -q1,即盒子的长度),所以触须的上端应该是Q3+1.51QR,触须的下端应该是q1-1.51 QR;如果数据集,最小值大于1.51 QR Q1,我们将使用以下最低取代Q1 - 1.51 QR扩展线路终端,如果小于最大Q341.51 QR相同,最大扩展线路终端,如上所述,当最大值或最小值超出了Q1 - 1.51 QR - Q3 + 1.51 QR这个范围内,我们称这些数据异常值或孤立点之外,代表在上面的图片已经超出了触角的人物。

 

当然,在一定的情况下,我们也可以利用基于数据集的标准差σ来选择上下3σ的范围,或者利用95%置信水平的置信区间来确定上下边界的结束值。

 

箱线图并不能显示数据集的全貌,但是通过对数据集的几个关键统计数据的图形化表示,我们可以看到数据的整体分布和分散。

 

微信截图 20181224144926 - 数据分析及预处理

 

微信截图 20181224144900 - 数据分析及预处理

 

通过这种方式,数据分析信息可以在单个表结构中被一致地访问,而且通常可以在关系数据库中获得更高的性能。ID的最大统计分析如下:

SELECT MAX(ID) FROM TABLE 

 

记录数统计分析语句如下:

SELECT COUNT(*)FROM TABLE

 

其他统计方法也类似。通过数据分析可以得到数据的详细统计信息。然后,如何利用这些统计信息对数据的质量进行审计,发现数据中可能存在的异常和问题,然后对数据进行有效的修正。最后得到符合统一访问等处理的“干净”数据。