400-050-6600

SPSS单样本非参数检验——卡方检验

来源:河北 CPDA数据分析师 / 作者:曾洲 / 时间:2020-10-19

今天我们聊聊非参数检验,之前给大家介绍过单样本非参数检验,今天我们一起来看一下单样本非参数检验中的其中一种——卡方检验。

卡方检验一般是用来对样本总体分布进行检验的非参数检验方法。比如说人的血型和性格是否有关系,如今的人口结构和很多年前是否还是一样等等情况都可以使用卡方检验进行分析。

我们先来看一下卡方检验的原假设,也就是H0是什么:

H0:样本总体的分布与假设的分布(也称期望分布或者理论分布)无显著性差异。

了解了卡方检验的原假设,我们再来看一下卡方检验的基本思想以及理论依据:如果一个随机变量X所在的样本总体中随机抽取任意数量的检验样本,这些抽取出来的检验样本落在Xk个互不相交的子集中的观测频数服从一个多项分布,这个多项分布在k趋于无穷时近似服从卡方分布。所以,我们在这个理论下,就可以对变量X的总体分布的检验从对各个观测频数的分析入手。

在分析的时候我们一般是需要得出Pearson卡方统计量。如果卡方值较大,说明期望频数与观测频数分布差距较大,这时候就需要拒绝原假设;反之,我们就需要接受原假设。

现在我们来看一下本次分析需要用到的数据:


上图中的数据是某个医院的人流量相关数据,我们需要对一周内的日均人流量进行分析,了解是否一周中每天的病人流量是相同的。

在进行分析时,我们首先要对日均人流量数值进行加权处理:


然后我们选择非参数检验中的单样本:






我们在字段选项中将日期选入检验字段中,设置选项中选择卡方检验。最后我们点击运行即可得出本次分析的结果: 


在结果中我们可以看到本次检验的原假设、检验方法、显著性水平P值以及最后的决策。本次分析中显著性P值为0.000,小于显著性水平0.05,说明一周中每天的人流量是不一致的。

我们双击结果图,可以进入到模型中看更加详细的分析结果:


从上图可以看到,卡方统计量为29.389,显著性P值为0.000,小于显著性水平0.05,说明通过了显著性检验,也就是说一周中每天的人流量有显著差异。同时我们还可以看出在周五的时候人流量最多,周日的时候人流量最少(周末医院门诊较少,人流也会降低),其余几天的人流量差别不是特别大。

还有一点需要大家注意的是当我们进入到模型中以后,我们还可以通过把鼠标放在聚类条形图上来了解各个字段具体的频率及差别(残差)。


Prev article

机器学习在传统服装行业的尝试

Next article

浅谈医改下,新冠疫情时,运营数据对提升药企应对的意义

课程服务

认证服务

在线咨询