当前位置 > CPDA数据分析师 > “数”业专攻 > 做数据分析首先要理解数据

做数据分析首先要理解数据

来源:数据分析师 CPDA | 时间:2018-11-30 | 作者:admin

数据分析时往往把数据划分四个层次,即把字符型数据再分为定类数据和定序数据,把数值型数据再细分为定距数据和定比数据。

 

u15170205963205181626fm11gp0 - 做数据分析首先要理解数据

 

1、定类数据,这种数据只对事物的某种属性和类别进行具体的描述。例如,对人口按性别划分为男性和女性两类,数据化后分别用0和1表示:对企业按行业类别分为农林牧渔业、采矿业、教育类、制造业、建筑业、金融业等等,可分别用1、2、3、4、5、6等表示。这种数码这是代号而无顺序和多少大小之分,不能区分大小和进行任何数学运算。定类数据形成各种类型,它们的排序是无关紧要的,哪一类在前、哪一类在后对所研究的问题并无实质性影响。而且,它们能够进行的惟一运算是计数,即计算每一个类型的频数和频率(即比重)。

 

u16792301591422147303fm11gp0 - 做数据分析首先要理解数据

 

2、定序数据,也成序列数据,是对事物所具有的属性顺序进行描述。定序数据不仅具有定类数据分特点,将所有的数据按照互斥和穷尽的原则加以分类而且还使各类型之间有某种意义的等级差异,从而形成一种确定的排序。这种序列测定在社会经济管理工作中应用很广泛。例如,对企业按经营管理的水平和取得的效益划分一级企业、二级企业等;对青年职工按所受正规教育划分为大学毕业、中学毕业、小学毕业等。这种排序是确定的,对所研究的问题有特定的意义。但是,它并不能具体测定各等级之间的间距大小,例如不能计算一级企业和二级企业的有实质意义的量的差距。类似地,也不能计算服务质量比预想的要好与羞不多之间的差距。

 

u27302893383861488285fm11gp0 - 做数据分析首先要理解数据

 

3、定距数据,也称间距数据,是比定序数据的描述功能更好一些的数据。它不仅能将事物区分为不同类型并进行排序,而且可以测定其间距大小,标明其强弱程度。温度是典型的定距数据,如10℃,20℃等。它不仅有明确的高低之分,而且可以计算差距,如20℃比10℃高10℃,比5℃高15℃等。定距测定的量可以选行加或减的运算,但却不能进行乘或除的运算,其原因是在定距数据的数值之间虽有确定的间距,但是没有自然确定的原点,即它的零点是人为指定的,所以不能得出倍的结论。

 

u27436933281970052278fm11gp0 - 做数据分析首先要理解数据

 

4、定比数据,也称比率数据,是比定距数据更高一级的数据,它不仅可以进行加减运算,而且还可以作乘除运算。定比数据与定距数据的显著区别是它有一个自然确定的、非任意的零点,也即在数值序列中,零值是有实质意义的。例如,人的年龄、体重都没有负值,以零为绝对界限,一个人的年龄不能比零岁更年轻,体重也不能比零更轻。因此,我们既可以说甲某60岁,比乙某30岁年长30岁,也可以说甲的 ,年龄是乙的2倍。绝大多数的经济变量也可以进行定比测定,如产量、产值、固定资产投资额、居民货币收人和支出、银行存款余额等数据的四个不同层次表明对不同研究对象定量分析的条件和形式是不同的,必须根据具体对象和问题加以区别。例如,对企业职工可以计算他们的平均工资和平均收入,但却不能计算他们的平均道德水平和平均政治信仰。掌握数据的不同层次对于i确地分析数据和选择分析方法是十分必要的。

 

1 1024x427 - 做数据分析首先要理解数据

 

数据的四个不同层次表明对不同研究对象定量分析的条件和形式是不同的,必须根据具体对象和问题加以区别。例如,对企业职工可以计算他们的平均工资和平均收入,但却不能计算他们的平均道德水平和平均政治信仰。掌握数据的不同层次,对于正确地分析数据和选择分析方法是十分必要的。

 

必须指出,数据的四个层次高低之分只是就客观事物量化程度和运算功能来说的,而不是指数据研究本身的高低之分。如果从客观対象量化分析的难易程度来看,定比数据和定距数据是对定量数据的测量,比较直接和容易,而定类数据和定序数数据是对属性的测量,量化过程就困难得多,特别是对多雏的复杂现象和过程的测量就更加困难。例如,对科技创新和文化活动的测量比对生产活动的测量要困难;

 

对经常困扰人们的各种原因引发的通货膨胀和国民经济运行的周期性波动的测量,显然比对产品产量和产值的测量要困难得多;对诸如贫困与富裕、生活质量、社会公平与进步、综合国力等社会和政治问题的定量分析,无疑比经济问题又要困难得多。

 

在实标问题中,定距数据使用的机会较少,而且在许多场合可以采用与定比数据同样的处理方法,通常可把两者合并在一起。