当前位置 > CPDA数据分析师 > “数”业专攻 > 我们都知道数据分析,那什么是数据仓库呢?

我们都知道数据分析,那什么是数据仓库呢?

来源:数据分析师 CPDA | 时间:2019-08-29 | 作者:admin

什么是数据仓库 - 我们都知道数据分析,那什么是数据仓库呢?

 

如今,许多公司都投身于机器学习、高级分析或其他热门项目,目的是领先于竞争对手。但是,如果没有对数据能为组织做什么、如何有效地存储和利用这些数据以及对这些努力采取战略性的、深思熟虑的方法有一个坚实的理解,他们的努力可能弊大于利。

 

那么,对于希望从数据中获得深刻见解的公司来说,什么才是正确的工具呢?数据仓库,是支持报告、分析和其他高级用例的最健壮和可持续的工具。

 

什么是数据仓库?基本定义和关键概念

数据仓库也称为企业数据仓库(enterprise data warehouse, EDW),它只是一个支持数据分析和报告的系统。EDW作为组织集成数据(即,来自多个数据源的数据组合,因此最终用户可以很容易地获得重要公司数据的单个、可理解的、可用的视图)。

 

数据仓库是用来存放组织完整和统一的信息存储库的。首先,您可以提取关键业务数据来做出明智的决策。数据仓库通过健壮和可伸缩的基础设施实现了企业数据使用的现代化。

 

数据仓库内容可能来自公司的操作系统(erp、历史学家、PI系统等)、财务系统、事务系统、关系数据库和各种其他来源。

 

这些数据通常包括最新和历史数据,所有内部用户都可以访问这些数据来构建分析报告。公司决策者、分析师和数据专家尤其需要快速有效地访问始终可靠的公司数据,而这正是数据仓库的设计目的。

 

数据仓库如何工作

让我们深入研究关于数据仓库功能的更多技术细节,以阐明它们所代表的深远的业务可能性。

 

数据仓库保留所有原始或源数据的副本。这是至关重要的,因为它允许组织:

 

从多个地方收集数据,并保存为一个数据库和数据模型;

 

通过保护面向客户的数据库不受大型、长时间运行的分析查询的影响,提高事务处理系统的效率;

 

通过确保来自不同来源的数据得到整合,为涉众提供数据的集中视图;

 

通过一致的编码和描述,通过纠正有问题的数据,通过排序和减少重复的数据,最大限度地提高组织数据的质量和可用性;

 

维护完整的数据历史记录,即使数据已从源事务系统中清除;

 

格式化或重组数据,使其更容易使用,并提高查询性能,无论多么复杂,都不会影响操作系统的效率;

 

而且,通过维护一个单一的、准确的、最新的数据源来提高业务应用程序的运行质量,特别是客户关系管理系统(CRMs)。

 

数据仓库的典型体系结构组件

数据仓库通常以提取、转换、加载(ETL)为基础进行操作,在此过程中通常使用登台、数据集成和访问层。关键层包括:

 

登台层(或登台数据库),其中存放来自所有组织源数据系统的原始数据;

 

什么是数据仓库1 - 我们都知道数据分析,那什么是数据仓库呢?

 

集成层,其中包含多个数据集;然后可以将这些集成数据移动到操作数据存储(ODS)数据库;

数据仓库数据库,其中集成的数据被放入层次组(或维度)、事实和聚合事实

 

而且,一个访问层,层次结构组放在一起。

 

一旦数据被集成和编目,指定的业务用户就可以对其进行挖掘,以支持各种各样的分析、研究项目、决策和战略规划。

 

使数据仓库如此可靠准确的部分原因是,它们所包含的数据不能被更改。这确保用户能够准确地跟踪数据随时间的变化;它还使创建和维护准确的数据字典(完整的数据库文件列表)成为可能。一个正确的、最新的数据字典是数据仓库提取、分析、转换和加载数据的关键手段之一。

 

数据仓库体系结构的这个大纲使我们对数据仓库有了更完整的定义。一个健壮的、具有战略重点的数据仓库不仅包括提取、转换和加载数据的工具、转换数据的层和组织数据的字典;它还包括管理和检索元数据的工具——以及支持和反映组织独特需求的业务智能工具。

 

如何构建数据仓库

根据每个组织的需求,数据仓库体系结构的复杂性可能会有很大差异。然而,所有数据仓库都必须使用以下步骤来构建:

 

找到你的数据。须从公司的每个角落——以及任何相关的外部来源——收集大量的数据。

 

清理你的数据。扫描数据中的错误、遗漏和重复;做出适当的更正和删除。

 

将数据从数据库转换为仓库格式,使其成为只读的。

 

对数据进行排序、合并和汇总。这将确保它不仅准确和完整,而且可能最重要的是,易于钻研和使用。

 

这个过程将在您添加更多数据或修改任何数据源时重复。

 

流行的数据仓库体系结构

数据仓库主要有三种形式;组织采用哪种体系结构方法反映了诸如规模、业务线和当前公司数据设置等变量。

 

基本的数据仓库。这种简单的格式允许用户运行简单或直接的查询,比如“8月份销售额”或“第二季度新增的新客户”。在这种情况下,完成此类查询(也称为访问、延迟或在线分析处理(OLAP))的速度是至关重要的。

 

具有登台区域的数据仓库。这对于合并大量重要但不同的业务数据源的数据仓库非常关键;staging区域使数据清理更加容易,并使来自无数数据源的数据集成或合并更加准确。

 

具有登台区域和数据集市的数据仓库。这是未来,但也是你现在就可以创造的未来。数据集市为组织中的不同群体提供了访问他们所需的特定信息的途径,这将使他们的特定关注点(例如,销售或OpEx)和更大的组织同时受益。

 

因此,一个公司越大、越复杂,它就越能从构建包含登台区域和数据集市的数据仓库中获益。所有数据仓库都回答数据查询,因此较小的组织或只有一个数据源的组织也将受益于采用数据仓库方法。但是,什么是数据集市呢?

 

那么数据集市、数据湖和数据库呢?它们有何不同?

有很多可用的数据排序、存储和访问选项。哪一个对您的业务最有利取决于您使用数据的目的。

 

数据集市。如前所述,数据集市是数据仓库的一部分,通常用于提供一个组、团队或业务线及其所需的特定信息。也称为迷你数据仓库,它们都可以在已经很低延迟的数据仓库中提高响应时间,并确保查询足够集中,对最终用户有用。

 

数据湖。数据湖仅仅是一个存储库,其中充满了无组织、无分类的数据;它们通常有助于收集尚未知道其值的数据。数据湖数据不得清洗、纠正或删除;数据湖分析查询对于机器学习这样的应用程序非常有用,但是对于寻找有用的、值得信任的业务见解的用户来说,它可能会产生糟糕的结果。

 

数据库。数据库记录频繁的事务,并提供对特定的、重复的业务事务的快速访问。虽然数据库的设计初衷是善于接收数据,但它并不是用来获取信息的来源。

 

用例:数据仓库与数据库

因为数据集市是数据仓库的子集,并且位于其中;由于数据湖和数据库一样,不筛选、组织、清理或集成数据,所以我们现在只考虑数据库和数据仓库的用例。

 

从数据库中提取用于分析的数据一般用于简单的日常事务,例如:

 

显示每天从一台机器处理的吨;

入院或挂号的医院工作人员;

记录工作时间。

 

数据库是相对基本的工具。数据库的主要功能是准确而有效地记录数据,有时是非常大量的数据,仅此而已。为了维护这个简单的功能,架构上的权衡常常是必需的——权衡可能会限制组织访问、使用和分析自己数据的能力。

 

相反,数据仓库是用来支持更复杂的活动的,例如:

 

高水平的报告和分析,旨在达成明智的、知情的业务决策;

从许多(可能是大型和/或断开连接的)数据库中挖掘数据,以满足当前或未来的需要;

为市场调研目的,深入分析海量数据;

分析内部和客户的用户行为,调整销售和营销策略,或改进流程和协作;或者,

通过报告、特别查询或自动决策,获得可用的、独特的见解。

组织可以将多个数据库中的数据拉入单个数据仓库,以便更容易地访问洞察。

 

什么是数据仓库2 - 我们都知道数据分析,那什么是数据仓库呢?

 

从业务的角度来看,数据仓库不仅可以比数据库做得更多,还可以连接到其他更侧重于业务的工具,从而为组织带来更具竞争力的价值。例如,特定的要求,如采矿公司可测量的破碎机生产率,可以聚合为其他工具,如仪表板或更复杂的模型。

 

这就是为什么需要数据仓库。我们希望现在已经很清楚,在一个竞争激烈且瞬息万变的商业环境中,运行一个数据驱动的组织,数据仓库——适当地使用数据集市——是最可靠的获胜方式之一。