当前位置 > CPDA数据分析师 > “数”业专攻 > 每个数据分析师都需要了解数据湖和数据仓库之间的差异

每个数据分析师都需要了解数据湖和数据仓库之间的差异

来源:数据分析师 CPDA | 时间:2019-01-25 | 作者:admin

500479879 2 - 每个数据分析师都需要了解数据湖和数据仓库之间的差异

 

数据湖和数据仓库是品牌可以收集和管理所有数据的两种方式,但两者之间的区别是什么?与从业者交谈,了解他们如何区分这两者。

 

数据湖作为一个集中的存储库,可以在其中存储任意规模的所有结构化和非结构化数据。在数据湖中,可以存储数据不需要对其进行结构化,就可以运行不同类型的分析。

 

数据湖的创建通常没有特定的目的。它包含来自各种数据源的所有源数据,包括:非结构化的或半结构化的,这使得它在潜在的用例中更加灵活。数据湖通常建立在低成本的商品硬件上,这使得它在经济上行存储TB级甚至PB级数据。

 

500515526 - 每个数据分析师都需要了解数据湖和数据仓库之间的差异

 

数据仓库,也称为企业数据仓库,是一种数据存储系统,它将来自不同来源的结构化数据聚合起来,用于业务智能领域的比较和分析,数据仓库是包含多种数据的存储库,并且是高度建模的。换句话说,在数据仓库中找到的任何数据都将与数据仓库中的所有其他数据密切相关。此外,仓库中的数据往往是高度标准化和非常“干净”的。

一个数据湖可以被认为是一个巨大的原始数据池,其中的目的没有定义。数据仓库是结构化和已定义数据的存储库,这些数据已经为特定目的进行了处理。

 

数据湖和数据仓库之间最大的区别是原始数据和处理数据的结构不同。数据湖主要存储未经处理的原始数据,而数据仓库是存储经过处理的和精炼的数据。

 

500516005 - 每个数据分析师都需要了解数据湖和数据仓库之间的差异

 

由于数据湖主要存储原始和未处理的数据,所存储的数据可以用于任何目的,这使其成为人工智能(Al)、机器学习和数据科学的理想选择。然而,未处理的数据确实需要很大的存储容量,而且还存在数据治理的问题。

 

然而数据湖,作为廉价的原始存储,缺点在于数据的处理。如何处理数据湖中的元数据,安全性和治理?这在成本可能上升很多。

 

因此,“数据湖泊可以更快地产生结果,因为已有大量数据存在。但是,数据湖对用户负有更多的责任来探索数据并查找用例。

 

数据湖可以更快地产生结果,因为那里已经有很多数据了。然而,数据湖把更多的责任放在用户身上,让他们去探索数据和发现用例。

 

对于数据仓库来说,由于存储的数据是结构化的,并且已经被处理过了,这使得企业更容易发现和理解数据。但是数据仓库的这一显著优势提供的灵活性很小,并且确实需要大量的劳动力。

 

另一方面,数据仓库适合为企业提供可重复流程的一致数据。

 

尽管数据湖和数据仓库是截然不同的,但在大多数公司都需要。