当前位置 > CPDA数据分析师 > “数”业专攻 > 浅议概率拓扑与数据分析挖掘的关系

浅议概率拓扑与数据分析挖掘的关系

来源:数据分析师 CPDA | 时间:2018-09-19 | 作者:admin

数据挖掘分析,是一种在非结构化、杂乱无章的数据中,通过一定的数学方 法,挖掘出有用信息的过程。本文旨在通过研究一些常用算法的数学原理,并运 用一系列的数学知识加以解释,从而阐释一种数据挖掘分析的新思路。

 

一、拓扑学简介

拓扑学,是一门研究几何图形不随形状改变而改变的性 质的学科,只考虑物体间的位置关系而不考虑其形状与大小。 下面,我们从具体空间(n维欧氏空间),到一般度量空间, 再到更一般化的拓扑空间,阐述其来龙去脉,以及性质上的异 同。

 

1、n维欧氏空间 我们知道,对于自然数n,均存在集合 Rn={x=(x1,x2,…,xn)|xi是任意实数,i=1,2,…,n} 其中Rn中的元素x=(x1,x2,…,xn)叫做Rn中的点,xi是点x的坐标分量。两点x,y之间的距离自然是:

图片1 8 - 浅议概率拓扑与数据分析挖掘的关系

显然,对于Rn中的任意三个点x,y,z,距离ρ满足以下三点:

(D1)非负性:ρ(x,y)≥0,并且ρ(x,y) <=> 0 x=y;

(D2)对称性:ρ(x,y)=ρ(y,x);

(D3)三角不等式:ρ(x,z)≤ρ(x,y)+ρ(y,z).

2、度量空间现在,我们抛开具体的集合Rn及其赋予的具体距离,只保留性质(D1)~(D3),定义一般的度量空间:设X为集合,其元素叫做点,如对X中的任意三个点x,y,z,存在函数ρ满足(D1)~(D3),则(X, ρ)叫做度量空间,ρ叫做(X, ρ)的度量, ρ(x,y)叫做两点x,y之间的距离。在明确所赋予的ρ时,(X, ρ)可 以简记为X。

设(X, ρ)为度量空间,x∈X,ε为正数,则X的子集 B(x,ε)={y∈X|ρ(y,x)<ε}叫做以点x为中心,以ε为半径的球形邻 域。对于度量空间(X, ρ)所有球形邻域组成的集族B,有以下性 质:

(B1) X=∪B∈B B

(B2)若x∈B1∩B2,其中B1,B2∈B,则存在x的球形邻域 Bx,使得x∈Bx⊂B1∩B2;

(B3) 若x∈B, B∈ B ,则存在x的球形邻域B x ,使得 x∈Bx⊂B.

若A是度量空间X的子集,a∈X,如果a有一球形邻域包含于A,则称a是A在X中的内点。A在X中的全部内点所组成的集 合叫做A在X中的内部,记作IntA。若A=IntA,则称A为X中的开 集。如果A的余集X\A是X中的开集,则称A为X中的闭集。

 

对于 度量空间X的全体开集组成的集族T,有以下性质:

(O1)X,∅∈T; (O2)若O1,O2∈T,则O1∩O2∈T; (O3)任意多个开集(即T的成员)的并集仍∈T.

 

3、拓扑空间

现在,我们进一步抛开距离的概念,只保留开集的性质(O1)~(O3),直接用开集来表示邻域。为此,我们引入拓 扑空间的概念:设X为集合,T是X的一个子集族,其成员满足 公理(O1)~(O3),则称T为X的一个拓扑,T的成员称为X的 开集。集合X连同其拓扑T称为拓扑空间,记作(X, T),在明确所 赋予的T时,(X, T)可以简记为X。如果X的子集族B满足(B1)和 (B2),则称集族B为X的拓扑基。在拓扑空间中,我们既然抛开了距离的概念,那么我们同样地,可以抛开球形邻域的概念,而直接以开集为邻域。不难 发现,拓扑空间X的任一开集U是其上每一点x∈U的邻域,也是 其任一子集A⊂U的邻域。

如果拓扑空间X与Y之间存在连续的一一对应映射,则称X 与Y拓扑等价。

 

二、几种常见算法

在上一节中,我们描述了解释数据空间的几种数学方法。 由于概率统计是分析的基础知识,在此我不赘述,直接对数据 分析挖掘的一些常用算法进行数学上的解释与分析。

 

1、邻近算法kNN 邻近算法kNN是一种将特征进行量化后,依据距离关系(一般用欧氏距离)判定相似度,从而进行分类的算法。此算 法不产生模型。

 

2、朴素贝叶斯算法 朴素贝叶斯算法是一种依据贝叶斯定理及其条件概率进行分析的算法,用于依据已有数据对事物的可能性进行推测。

 

3、回归方法 回归方法是一种将数据拟合逼近一定类型等式的描述方法,旨在通过方程式尽可能准确、接近地描述数据间的规律。

 

图片2 7 1024x741 - 浅议概率拓扑与数据分析挖掘的关系

 

三、拓扑学对数据挖掘的介入 在上一节中,我们说到的邻近算法和回归方法都是建立在欧氏空间的基础上,并基于欧氏空间的性质进行分析的。我们 不妨尝试着让拓扑空间的一些性质和概念接入到分析过程中。

 

在回归分析中,可对全体数据点形状大小相同邻域(例 如:同半径球形邻域)的并集分析拓扑性质随各邻域大小变化 而发生的改变(如空腔、孔洞、连通性等),从而掌握数据密 度的分布情况。这样有利于在分析中分清高低密度区域,识别 离群点。在数据挖掘分析中,离群点是出现的相对较少,高低 密度带的情况相对要多很多。

 

在挖掘与拟合的过程中,可以选取高密度带,其选取区域 的密度筛选值应适度:如果太高,分析会欠缺数据;太低,则 会有太多的噪声数据干扰。在大数据分析思维里,可抛开因变 量自变量的概念,只分析彼此关联关系,所以拟合的对象可以 是曲线或曲面方程,而不仅限于函数。例如当数据分布为球面 带时,相关系数为零,线性无法拟合,就可以通过上述方法进 行挖掘。

 

拓扑学解决的是不变性的问题,可以介入到数据挖掘分析 的过程中来发现本质问题;概率统计研究的是随机事物,可用 于分析预测不确定的事情。概率拓扑的运用,可以更为准确地 在变换的条件下把握本质,并不断依据新出现的实际情况修正 和完善判断标准。