来源:数据分析师 CPDA | 时间:2018-09-27 | 作者:admin
刘程浩
广州CPDA11期学员
经济学硕士
擅长通过数据对业务流程进行分析和优化。
前不久,因为和一位好友沟通聊天时,接触到了“品牌直觉图”这个名词,并激起了我的兴趣。
这个“品牌直觉图”的功能比较多,可以对品牌的印象做一个定位或归类。同时如果将品牌的测量换成其他定性的指标测量的话,还可以有其他更广泛的作用。
例如不同年龄段对某类品牌服装的评价;不同教育程度和不同运动观念匹配度……等等。总之这类定性的指标,难以直接进行相关系数测量的分析,可以参考这种工具的分析结果。
好了,先不说废话,直接举个例子和大家介绍下。
(以下非公式推导部分的结论,方法借鉴了沈浩老师的博客)
下表是不同性别-年龄段对不同户外运动的调研结果。行分类是不同的户外运动种类,列分类是不同的年龄段和性别。表格中间的数字表示不同性别-年龄段选择不同运动种类的人数。F代表女性,M代表男性。人数数字略微做了调整,由于咱们是举例说明,所以不考虑像调研群体对象,抽样技术等细节问题。(手机横置可见完整表格)
运动种类 | 年龄段-性别 | 总计 | |||||||||
≤20M | ≤30M | ≤40M | ≤50M | ≤60M | ≤20F | ≤30F | ≤40F | ≤50F | ≤60F | ||
乒乓球 | 1200 | 2050 | 2500 | 1600 | 950 | 1000 | 1800 | 2300 | 2200 | 1580 | 21108 |
自行车 | 350 | 900 | 650 | 170 | 50 | 45 | 90 | 100 | 50 | 30 | 3029 |
健身操(舞) | 1500 | 2800 | 3900 | 3600 | 3000 | 200 | 600 | 1500 | 2000 | 1400 | 25290 |
徒步 | 100 | 200 | 300 | 200 | 250 | 30 | 150 | 400 | 700 | 500 | 3424 |
马拉松 | 500 | 900 | 910 | 500 | 300 | 30 | 70 | 50 | 40 | 10 | 4125 |
登高 | 200 | 400 | 300 | 500 | 300 | 150 | 300 | 350 | 400 | 390 | 4021 |
合计 | 4802 | 9046 | 10681 | 8197 | 6051 | 1814 | 3754 | 5863 | 6724 | 4065 | 60997 |
如果我们想了解属于不同年龄段的人,参与哪些运动;或者不同的运动种类更受哪些性别-年龄段的欢迎……我们看人数就差不多了。不过由于列分类有10个子类别,一下子眼睛不一定看得过来,一般人只好按一个一个的行分类进行排序。
比方说乒乓球这类别,按照人数分别对男性/女性进行年龄段排序;或者只按照年龄段进行排序。这样一来6个运动类别,每个类别有这3种排序分析,加起来18次排序后,如果再让你去进行一个全局分析,怕是很多人会被这18种结果弄得不知所云的。
所以,除了数人数之外,我们还需要做更深一些的认知和分析。这时候就需要使用到一种技术“对应分析”或者“Correspondence Analysis”。
我们就直接按照做完对应分析的结果,列出一个分析视图和大家做一下介绍。
上图是我们将这个人数分布表按照“对应分析”做出的5个维度的分析。其中第一个维度解释了62.1%的信息,第二维度解释了29.8%的信息,光这2个维度就足以解释91.9%的信息。同时我们看第4列和第5列的卡方检验值也比较理想。因此接下来我们就可以用一个“2维”对应分析图对这些信息做下解释。
上图就是一个已经做好的对应分析的二维分析表。根据图例,我们可以看到代表性别-年龄段的星形分布,男性和女性散落在中间纵坐标轴2侧,由此可见男性和女性在选择运动种类上还是有着很大的区别。
同时我们看到中间横坐标则将年龄段划分成了中年以前和中年以后。可见,随着身体状况的不同衰老情况,40岁上下是选择户外活动的一个分水岭。
接下来我们看一下不同性别-年龄段选择的相似性(向量夹角),过中心连接任意的一个或几个性别-年龄段图标,这样形成若干个向量。如果这些向量的夹角是锐角或者更小,那么说明他们对运动选择的倾向性就越相似,做市场细分时可以将这2个年龄段进行合并,或者设计运动装备产品时2者可能不需要太多的差异化。我们看,40-50岁之间,20-30岁之间的年龄差异是比较小的。
当然了,除了按性别-年龄段做向量之外,也可以用运动种类做向量,看看哪些比较接近。
还有,我们可以寻找一个运动种类为圆心,做同心圆,我们会发现乒乓球周围的领域首先进入的是三四十岁的女性;而徒步则为五六十岁的女性首先进入。当然了,把运动种类换成服装、包包也可以。根据你的分析目的和诉求,自行量身定制。或者反过来,以性别-年龄段为圆心,考察进入同心圆的运动种类也是不错的思考角度,因为如果先后进入的运动种类隔得比较近,说明替代性比较高(如果运动种类换成服装品牌,说明2者的定位就是竞争激烈的对手)。
还有一种做法,就是任意连接中心和某个性别-年龄段做向量,然后把各种运动类别对这个向量以及向量反向延长线做垂线,垂足距离这个性别-年龄段的远近,则表示一般情况下这个性别-年龄段选择运动种类的先后顺序。当然了,可以对应的选择运动种类作为向量来被不同的性别-年龄段来垂直。
例如,对于40岁的男性来说,健身操(舞)是最容易排在首选的运动种类,其次是乒乓球、登高;而马拉松、自行车和徒步,则排在第三梯队的选择中。
还有,上图中的每个象限,其实可以看成一个独立的区域,在这个象限里面所包含的性别-年龄段,以及运动种类,就可以看成一个群体或类别。例如第一象限中,≤50M和≤60M以及徒步、登高就是一个类别,代表了这个性别-年龄段更倾向于徒步和登高。
当然了,以上所有的分析中,把性别-年龄段替换成品牌,将各种运动类型替换成各种品牌评价,那么每种分析的方法都可以得到不同的品牌知觉图。
以上的分析,都是直接忽略掉了原理的解读直接讲结果。
乍一听还是感觉蛮有些道理的。
但是如果从授人以鱼不如授人以渔的角度来分,我觉得至少还得讲清楚一个很关键的地方:那就是为什么这2个定性的类别属性可以放在一个坐标体系中来表示?
再问仔细些,还包括这2个定性属性的坐标分别代表了什么?
解释了上面的问题,我相信这才能让客户听懂你到底应用“对应分析”做了什么事情。
好,下面我就重点就这2个问题做下原理介绍。
问题1、为什么这2个定性的类别属性可以放在一个坐标体系中来表示?
其实这个问题又还可以分解成以下2个子问题:
那么为了回答这2个问题,我们先得将具体问题抽象一下,作为基础知识。
首先,文章最初的那个6×10的行列联表可以抽象成一个m×n阶的矩阵,其中m=6,n=10。m代表了各种不同的运动行类别,n代表了不同性别-年龄段的列类别。fij代表了每个对应的性别年龄段ni所选择的运动类别mi人数。
一般的,我们研究为了后面的运算更加便捷,我们会采用频率来代替具体的人数。
大家还记得多联表是否存在相关性要用到的卡方检验吧?它就是用的频率pij来进行计算的。
显然的,
那么我这个时候我会问一个问题,如果X和Y之间是独立的话,我们是否还有必要做接下来的分析?
答案当然必须是否定的。也就是说,如果X和Y之间是独立的,也就是说这个m×n阶矩阵里的每一个元素和其他元素之间都是独立的,那么这种“对应分析”就“对应不起来”了。既然对应不起来,研究他们的相互关系也就无从下手了。
因此,这个时候,我们需要对这个频率矩阵进行卡方检验,通过了矩阵元素间非独立的检验后,才可以接下来继续研究。
换成数学的语言就是
如果H0假设不成立,我们才要继续我们的“对应分析”。
好,我们现在开始回答 1.1 为什么是二维的直角坐标系,不是3维,或更高维?
其实,如果我的回答是“因为平面由二维组成,超过二维就画不出来了呀”的话,你肯定会抽我的。呵呵呵
但是,这么样的回答却又是客观下的无奈。
二维平面确实很直观,容易阅读。即便三维立体结构我们可以画出来,但是如果上面的点很多的话,分解成的8个卦限去用颜色标记就会很复杂,不利于读者阅读。那更不用说用四维或更高维那些画都画不出来的空间了。
但即便如此,有人可能不放心:为了分析方便,我们不得不选择二维视角而放弃了高维视角,是不是会丢失一些重要信息呢?
这个问题问的好。
其实,用二个维度去表示全量信息的话,确实会丢失一些信息。但是如果这2个维度占了全量信息的很大一部分的话,那么我们是可以近似的用2维信息来进行分析呈现的。
这就很象主成分分析法,我们提取主成分,也就是要提取主要的信息而非全量信息,这样才能够降维。
而我们用的这个分析图所选取的2个维度,也不是随便选取的,而是通过主成分分析法进行挑选后才选定的维度。因此,当这2个主成分占全信息量的比重很大时,我们才可以很有底气的说,用二维图像分析而不用高维的分析是可行的。这样就回答了1.1 为什么是二维的直角坐标系,不是3维,或更高维?
好接下来,我们来回答第二个问题。
那说道主成分分析法,有这个知识功底的人估计就会问了:你是通过什么来进行主成分提取呢?
这就要用到另外2个名词,行剖面和列剖面的加权协差矩阵。
什么是行剖面的加权协差矩阵呢,或者先回答什么是行剖面呢?
其实我们可以定义这个概念,第i行的行剖面为:
同样的,我们定义第j列的列剖面为
有了行剖面和列剖面定义之后,我们就要用这2个定义,去对行类别的属性Y和列类别的属性X进行协方差矩阵的构建。
也就是说,要构建2个协方差矩阵,分别是行剖面的协方差矩阵
和列剖面的协方差矩阵
写到这里,估计可能我们的主成分分析高手,就迫不及待的想要开始计算主成分了。不过在这里我们还要打断一下:
其实对于行剖面来说,第i行的每个元素频率并不是均匀分布的,也就是说第i行每个元素的频率并不是都相等的。它是受到特性X不同状态的概率影响的。
为了将这个影响给量化出来,就需要给定一个影响权重。
可怎么去设计权重呢?
我们把每个行剖面看成是一个点的话,第i个行剖面
里面每一个元素就是X特性维度的一个坐标,所以每个行剖面都是n维的坐标点。
有多少个行剖面,就有多少个行剖面点。
有了多个点之后,就会存在一个重心,那么重心的每个分量就可以看成是一个影响权重了。
由于各个点之间并非均匀分布的,也就是说p1.≠p2≠p3.……≠pm.,因此行剖面点集的重心并非简单的算术平均一把了事,而是要利用pi.作为权重。
对于行剖面点集的重心,其第j个分量计算得到
这个p.j未来要对行剖面的协方差矩阵来施加影响的。也即是令Dj为
然后这样施加影响
这样得到的加权行剖面协方差矩阵,用来做主成分分析。
同样的,列剖面的协方差矩阵,也可以用相应的列剖面点集的重心分量做权重pi.,制作成权重矩阵Di,并对原始的列剖面协差矩阵施加影响,得到列剖面的加权协差矩阵。
刚才的行剖面加权协差矩阵,经过计算(我正儿八经的推导了一回,还是比较有计算量的,在这里就不展示了,不过很佩服这种方法的发明者的技巧),会得到这样的一种形式
令:
有
这一步有什么用呢?
用处很大了!
根据矩阵和特征值的定理:若A和B分别为m×n阶矩阵以及n×m阶矩阵,则AB和BA有相同的非零特征根。而这相同的非零特征根,就是代表了对他们分别求主成分计算之后提取的主成分的方差!由于特征根相同就代表了主成分相同,所以代表了对行剖面和列剖面提取的前2个主成分是一样的。既然提取的2个维度是一样的,所以大家的变化幅度都是一样的,那么就可以在相同的2维平面坐标轴来表示了。
这样就回答了1.2 为什么这两个定性属性能够共用一个直角坐标系
我们先休息一下,绕了这么大的弯,我们终于可以用严密的数学计算来解释,为什么要选2维平面来做对应分析,以及为什么这2个属性变量X和Y可以共用一个二维平面了。
剩下的问题,就是对应分析图中,2个定性属性的坐标分别代表了什么?
回到主成分分析法,我们应该还记得主成分的方差λ代数表达式
对于每一个λ,都可以由若干个因子荷载构成。我们还是用这个性别-年龄段和运动种类的例子。
对于m个行属性类别,也就是运动种类类别,每个类别在λ1上有一个因子荷载,m个行子属性在λ1上就有m个因子荷载。
同理,m个行属性类别的子属性,在λ2上也有m个因子荷载。
每一个行属性类别分别在λ1上和λ2上的因子荷载,就构成了这个行属性类别的子属性的坐标值。
用句通俗易懂的话来说,就是m个运动种类的每一种运动,分别承载了两个主成分的一部分信息量,这个承载量的平方根就是坐标值。
用数学的语言来说,就是
如果用统计软件计算的结果,就是如下。
类似的,我们也可以得到n个列分类上第j个子属性的坐标值如下
就是对应分析图中,2个定性属性的坐标分别代表了什么答案。
小结:
经过以上的分析,我们了解了对应分析有什么用,有哪几种典型的解读方法;以及为什么对应分析可以在一个二维平面上对两种不同的定性属性进行可视化呈现。理解完这2点,我觉得大家用起这种方法,就会相对的知根知底了。