当前位置 > CPDA数据分析师 > “数”业专攻 > 实战大数据技术解释什么是数据抽取和数据清洗

实战大数据技术解释什么是数据抽取和数据清洗

来源:数据分析师 CPDA | 时间:2019-02-25 | 作者:admin

170119 - 实战大数据技术解释什么是数据抽取和数据清洗

 

数据抽取:

 

百度给数据抽取下了一个定义:数据抽取是从数据源中抽取数据的过程。数据源采用关系型数据库和非关系数据库。具体来说,就是搜索整个数据源,使用某些标准选择合乎要求的数据,并把这些数据传送到目的文件中。简单来说,数据抽取就是从数据源中抽取数据的过程。数据源可以简单分为结构化数据、半结构化数据和非结构化数据。

 

数据的抽取需要在调研阶段做大量工作,首先要搞清楚数据是从很多业务系统中来的,每个业务可能都有各自的数据库,是否有非结构化数据等。大数据与传统海量数据的差别主要在于海量数据一般都是指存储在数据库中的结构化数据,而大数据面对的则是大量非结构化的业务数据,如招标公告文本、采购文本中的各类有价值的项目数据、招标金额、产品规格信息。下面简单介绍几种不同数据源的处理方法

15895 - 实战大数据技术解释什么是数据抽取和数据清洗数据清洗:

 

数据清洗原理即通过分析“脏数据”的产生原因和存在形式,利用现有的技术手段和方法去清洗“脏数据”,将原有的不符合要求的数据转化为满足数据质量或应用要求的数据,从而提高数据集的数据质量。

 

数据清洗的定义在不同的应用领域不完全相同。例如,在数据仓库环境下,数据清洗是抽取转换装载过程的一个重要部分,要考虑数据仓库的集成性与面向主题的需要(包括数据的清洗及结构转换)。数据清洗主要是提高数据的可利用性(去除噪声、无关数据、空白数据域,考虑时间顺序和数据的变化等),但主要内容还是一样的。数据清洗是一个减少错误和不一致性、解决对象识别的过程。可以这么定义:对数据源进行详细分析后,利用相关技术(如预定义的清洗规则字典函数库及重复记录匹配等)将从单个或者多个数据源中抽取的脏数据经过一系列转化使其成为满足数据质量要求的数据,这样的过程称为数据消洗。

 

对于数据清洗的定义目前还没有共识。对于应用于不同领域中的数据清洗有不同的解释。目前,数据清洗主要应用于三个领域:数据仓库(DW)、数据库中的知识发现(KDD)和数据质量管理(TDQM)。

 

在数据仓库领域中,数据清洗一般是应用在几个数据库合并时或多个数据源进行集成时。指代同一个实体的记录,在合并后的数据库中就会出现重复的记录。数据清洗过程就是要把这些重复的记录识别出来并消除它们,也就是所说的合并清洗( merge/purge)问题。这个问题的实例字面可称作记录链接、语义集成、实例识别或对象标识问题。

 

32364 - 实战大数据技术解释什么是数据抽取和数据清洗

 

从这个方面讲,数据清洗可有几种定义:数据清洗是消除数据的错误和不一致并解决对象标识问题的过程;数据清洗是归并/清洗问题;数据清洗并不是简单地用优质数据更新记录,它还涉及数据的分解与重组。

 

TDQM是一个学术界和商业界都感兴趣的领域。有很多论文提到数据质量及其集成问题,但是很少涉及数据清洗问题。有些文章从数据质量的角度论及过程管理问题。在数据生命周期中,数据的获取和使用周期包括系列活动:评估、分析、调整、丢弃数据。如果将数据清洗过程和数据生命周期循环集成起来,这一系列步骤就从数据质量的角度给数据清洗下了定义。

 

到目前为止,数据清洗还没有统一的定义,它在数据仓库、数据/信息质量管理和数据库中的。

 

大数据的一个重要特点就是多样性,这就意味着数据来源极其广泛,数据类型极为繁杂。这种复杂的数据环境给大数据的处理带来极大的挑战。要想处理大数据,首先必须对所需数据源的数据进行抽取和集成,从中提取出关系和实体,经过关联和聚合之后采用统一定义的结构来存储这些数据。在数据集成和提取时需要对数据进行清洗,保证数据质量及可信性。

 

mtxx20 副本 - 实战大数据技术解释什么是数据抽取和数据清洗

 

数据抽取作为数据处理的第一步,具有至关重要的作用。大数据量对应着海量噪杂的信息,不可避免地带来大数据困惑。如何从大数据中提取关键性的代表性特征,可能是某些词汇,也可能是某些短语、命名实体或流行用语,则成为大数据分析的一把利器。

 

随着网络和信息技术的发展,出现了“信息爆炸”的问题,即数据极其丰富而所需知识相对匮乏。人们所需求的数据分散在多家网站的Web网页上,为了得到自己所需的信息,不得不在浩如烟海的网页中搜索、浏览,寻找符合自己所需的知识,不仅浪费了大量的时间和精力,而且有时不一定能得到自己所需的知识,所以说在数据极大丰富的同时,也带来了数据泛滥的问题,Web数据转换集成技术正是用来从巨量的信息中获取有效信息的方法。如何快速、准确地从海量数据里面提取有用的信息已经成为当前计算机科学的关注热点。

 

Web数据集成技术可以从Web上自动获取数据,然后集成为用户所关心的有效信息,并在此基础上实现高效的査询、检索和比较,乃至数据挖掘、知识发现等应用。但是由于Web数据的特点,从web上得到的数据中有可能存在着大量的脏数据,引起的主要原因有:滥用缩写词、惯用语、数据输入错误、重复记录、丢失值、拼写变化、不同的计量单位等。如果其中存在着大量的脏数据,那么这些数据也是没有任何意义的,根本就不可能为以后数据挖掘决策分析系统提供任何支持。没有数据清洗,很可能就会导致错误的决策,因此数据清洗是构建数据仓库和知识发现的必要因素。