400 050 6600
数据分析师

手机号

验证码

30天自动登录
当前位置:首页 - Q&A问答

Q&AQ&A问答

CPDA数据分析师在数据匹配的环节是如何操作的?

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-07-30

对于很多人来说什么是数据匹配?

基本上它是识别大型数据集中重复项的能力,这些重复项可能是在一个或多个数据库中有多个条目的人,它也可以是库存系统中任何描述的重复项目,数据匹配允许您识别重复项或可能的重复项,然后允许您执行诸如将两个相同或相似条目合并为一个操作,它还使您能够识别非重复项,这对于识别重复项同样重要,因为您想知道两个相似的事物肯定不相同。

 

那么数据匹配实际上是如何工作的?

它背后的数学理论是什么?好,让我们回到原理。您如何知道两个“事物”实际上是相同的“事物”?或者,您怎么知道两个“人”是否是同一个人?什么是标识某物的?我们自己直观地做到这一点,我们认识到事物或人中相似的特征,并承认它们可能相同或相同,从理论上讲,这可以应用于任何物体,无论是人还是一件衣服,例如一条短裤,杯子或“小配件”。

 

这些是不太可能随时间变化的属性

我们可以关联并权衡每个属性的概率。例如,注意到这两件事实际上是相同的概率,然后这可以应用于人和物,问题在于事情可以并且确实会发生变化,或者它们会被错误地识别。诀窍是确定可以更改的内容,即姓名,地址或出生日期。有些事情比其他事情改变的可能性较小。对于对象,可以是大小,形状,颜色等。

 

记录链接对链接数据的质量高度敏感。首先应该对数据进行“标准化”,使其具有相似的质量。

 

现在有两种数据链接:

1、确定性记录链接基于多个匹配的标识符

2、概率记录链接,其基于多个标识符匹配的概率

3、绝大多数数据匹配是概率数据匹配。确定性链接太僵化了。

 

那么您如何匹配?

首先您执行所谓的阻止您将数据分类为具有相同属性的大小相似的块。您确定不可能更改的“属性”。这可以是姓,生日,颜色,数量,形状。接下来,进行匹配。首先,为每个属性分配一个匹配类型(有很多不同的方法来匹配这些属性)。名称可以在语音上匹配;日期可以通过相似性进行匹配。接下来,您将为每个匹配属性计算相对权重。这类似于“重要性”的度量。然后,您可以计算出匹配这些字段的概率,也可以意外地取消匹配这些字段的概率。,您分配一种算法来调整每个属性的相对权重,以得到所谓的“总匹配权重”。那就是两件事的概率匹配。

 

总结一下:

1、标准化数据

2、选择不太可能改变的属性

3、块,分成大小相似的块

4、通过概率匹配(请记住有很多不同的匹配类型)

5、为比赛分配权重

6、全部加起来获得总重量

 

客服热线:400-050-6600

商业联合会数据分析专业委员会

 

Prev article

数据分析师在数据准备中的哪一种适合您?

Next article

如何利用大数据简化您企业的互联网平台?

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务