当前位置 > CPDA数据分析师 > “数”业专攻 > 详解大量数据的数据分组方法

详解大量数据的数据分组方法

来源:数据分析师 CPDA | 时间:2016-12-01 | 作者:admin

数据分组是依据数据的不同将数据划分成为若干组。分组后,要使组内的差异尽可能小。而组和组之间则有明显差异,从而使大量无序的、混沌的数据变为有序的、层次分明的、显示总体数量特征的数据资料。因为任何总体内部各单位之间都是既有共性又有差异性的,数据分组便是以这种共性和差异性的对立统一为基础的整理方法,它对于自然科学和社会科学的研究都是必不可少的。

 

对于数据分组重要的问题是组和组之间的界限即组限的确定。组限的确定也应该遵循穷尽和互斥原则,即一个数据必须能分配进入一个特定的分组,并且一个数据只能分配进入的一个特定的组。编制定性数列时,组限的确定一般比较简单,即入口按性别分组、企业按所有制分组。有时组限的确定比较复杂,如人口按职业分组,商品按类型分组,这就需要有关部门颁布的标准目录进行分组。

 

确定分组元素

在数据分组时,应注意以下三个方面的问题:首先要确定适当的组数;其次要确定合适的组距;最后要确定每个组的组限以防止互相重合。

1.确定组数

分组的组数没有严格的规定,主要取决于研究数据有多少。如果研究数据有很多,那么分组的组数也应该相应的多一些。另外还有数据分布的形态有关。如果数据的集中程度较高,那么分组的组数可以少一些。很多情况下组数是凭经验或者反复试分组来确定的。

 

2.确定组距

组距为上限与下限之差。根据各组的组距是否都相等,组距数列又可分为等距数列和异距数列,一般情况下是编制灯具数列。而当数据的分布很不均匀或者为了把现象的类型更好的划分出来时,就需要编制异距数列 。

 

编制等距数列时,组距可以由全距(全部数据中最大值与最小值之差)除以所确定的组数来获得,即组距=全距/组数。因为这个比值往往存在小数,在实际分组时可对组距略微放大取整数,使其成为一个较为方便的数值,例如5或者10的倍数。

 

3.确定组限

组限的确定为了不重复和不遗漏,对离散型数据分组时,最好用两个相邻的整数分别表示较小的一组的上限和比它大的那组的下下限,如对考试成绩分组时分成“70-79”分,“80-89分”这样的形式。对连续数据分组时,就需要用以下,以上等文字加以说明,如按居民的收入分组,可分成为“1000-2000元以下”、“2000-3000元以下”这样的形式;或者用同一个整数分别表示较小的一组的上限和比他大的那组的下限,如“1000-2000元”“2000-3000元”的形式,此时一般以每组的下限为闭区间、上限为开区间。

 

下一节内容会介绍利用excel函数对数据进行分组,希望小伙伴多学习数据分析技术,早日跨入金领领域--CPDA数据分析师队列中来。