当前位置 > CPDA数据分析师 > “数”业专攻 > 数据分析培训系列(数据挖掘)--分类算法之贝叶斯(四)

数据分析培训系列(数据挖掘)--分类算法之贝叶斯(四)

来源:数据分析师 CPDA | 时间:2015-07-28 | 作者:admin

四 贝叶斯误差率

假设我们知道支配P(X|Y)的真实概率分布。使用贝叶斯分类方法,我们就能确定分类任务的理想决策边界,如下例所示:

考虑任务:根据体长区分美洲鳄和鳄鱼。一条成年鳄鱼的平均体长大约15英尺,而一条成年美洲鳄的体长大约12英尺。假设他们的体长x服从标准差为2英尺的高斯分布,那么二者的类条件概率表示如下:

1

下图给出了鳄鱼和美洲鳄类条件概率的比较。假设它们的先验概率相同,理想决策边界 满足:

2

利用上述公式得到:

3

解得 。该例的决策边界处在两个均值的中点。

4

当先验概率不同时,决策边界朝着先验概率较小的类移动。此外,给定数据上的任何分类器所达到的最小误差率都是可以结算的。上例中的理想决策边界把体长小于 的分类为美洲鳄,把体长大于 的分类为鳄鱼。该分类器的误差率等于鳄鱼的后研概率曲线下面的区域(从0到 )加上美洲鳄后研概率曲线下面的区域(从 到 ):5

总误差概率称为贝叶斯误差率。

五 贝叶斯信念网络

朴素贝叶斯分类器的条件独立假设似乎太严格了,特别是对那些属性之间有一定相关性的分类问题。本节介绍一种更灵活的类条件概率P(X|Y)的建模方法。该方法不要求给定类的所有属性都条件独立,而是允许指定哪些属性条件独立。我们先讨论怎样表示和建立该概率模型,接着举例说明怎样使用模型进行推理。

 

1 模型表示

贝叶斯信念网络(Bayesian belief networks,BBN),简称贝叶斯网络,用图形表示一组随机变量之间的概率关系。贝叶斯网络有两个主要成分。

  • 一个有向无环图(dag),表示变量之间的依赖关系。
  • 一个概念表,把各节点和它的直接父结点关联起来。

考虑三个随机变量A、B、C,其中A和B相互独立,并且都直接影响第三个变量C。三个变量之间的关系可以用下图a中的有向无环图概括。图中每个结点表示一个变量,每个弧表示两个变量之间的依赖关系。如果从X到Y有一条有向弧,则X是Y的父母,Y是X的子女。另外,如果网络中存在一条从X到Z的有向路径,则X是Z的祖先,而Z是X的后代。例如,在下图b中,A是D的后代,D是B的祖先,而且B和D都不是A的后代结点。贝叶斯网络的一个重要性质表达如下:

性质1 条件独立 贝叶斯网络中的一个结点,如果它的父母结点已知,则它条件独立于它的所有非后代结点。

下图b中,给定C、A条件独立于B、D,因为B和D都是A的非后代结点。朴素贝叶斯分类器中德条件独立假设也可以用贝叶斯网络来表示,如图c所示,其中y是目标类,{X1,X2…Xd}是属性集。

6

除了网络拓扑结构要求的条件独立性外,每个结点还关联一个概率表。

  • 如果结点X没有父母结点,则表中只包含先验概率P(X)。
  • 如果结点X只有一个父母结点Y,则表中包含条件概率P(X|Y)。
  • 如果结点X有多个父母结点{Y1,Y2,…,Yk},则表中包含条件概率P(X|Y1,Y2,…Yk)。

下图是贝叶斯的一个例子,对心脏病或心口痛患者建模。假设图中每个变量都是二值的。心脏病结点(HD)的父母结点对应于影响该疾病的危险因素,例如锻炼(E)和饮食(D)等。心脏病结点的子结点对应于该病的症状,如胸痛(CP)和高血压(BP)等。如图所示,心口痛(Hb)可能源于不健康饮食,同时又可能导致胸痛。

影响疾病的危险因素对应的结点只包含先验概率,而心脏病、心口痛以及它们的相应症状所对应的结点都包含条件概率。为了节省空间,图中省略了一些概率。注意 , ,其中 表示和x相反的结果。因此,省略的概率可以很容易求得。例如,条件概率:

P(心脏病=no|锻炼=no,饮食=健康)=1-P(心脏病=yes|锻炼=no,饮食=健康)=1-0.55=0.45

7

下一节中,我们将继续介绍有关贝叶斯信念网络如何建立模型,如何使用BBN进行推理举证,及什么是BBN的相关内容。