当前位置 > CPDA数据分析师 > “数”业专攻 > 大数据时代数据质量非常重要

大数据时代数据质量非常重要

来源:数据分析师 CPDA | 时间:2019-04-25 | 作者:admin

318827 - 大数据时代数据质量非常重要

 

无论是大数据还是小数据、老数据还是新数据、传统数据还是现代数据,无论是在内部还是在云中,对数据质量的需求都不会改变。在从大数据和其他新数据资产中获取业务价值的压力下,数据专业人员可以利用现有的技能、团队和工具来确保大数据的质量。即便如此,利用现有的技术并不意味着应该这样做,我们必须使现有技术适应当前时代的要求。

 

数据专业人员(如:数据分析师、大数据工程师、数据分析员等等)在调整、优化和扩展数据质量和相关数据管理实践,以适应大数据和类似现代数据集的业务和技术要求时,必须保护传统企业数据的质量。除非企业同时执行这两项工作,否则可能无法提供所有数据资产所需的可信分析、操作报告、自助服务功能、业务监视和治理。

 

332567 - 大数据时代数据质量非常重要

 

值得一提的是,企业可以将当前的数据质量和其他数据管理能力应用到大数据中。稍微坏一点的消息是,企业需要理解并进行某些调整和优化。幸运的是,我们熟悉的数据质量任务和工具功能与大数据和其他有价值的新数据资产,从Web应用程序、社交媒体、数字供应链、SaaS应用程序和物联网高度相关,如下所例:

 

标准化:很多用户都希望探索和处理大数据,通常是以自助服务的方式,依赖于基于sql的工具。数据质量的标准化使得大数据更有利于临时浏览、可视化和查询。

 

重复数据删除:大数据平台最终总是多次加载相同的数据。这扭曲了分析结果,使度量计算不准确,并对操作过程造成严重破坏。数据质量的多种匹配和重复数据删除方法可以弥补数据冗余。

 

匹配:数据集之间的链接很难被发现,特别是当数据来自各种传统和现代的源系统时。数据质量的数据匹配功能有助于验证各种数据并识别数据集之间的依赖关系。

 

分析和监控:许多大数据源,例如电子商务、Web应用程序和物联网(IoT),缺乏一致的标准,并且在不通知的情况下无法预测发展其模式。无论是在开发中对大数据进行分析还是在生产中对其进行监控,数据质量解决方案都可以揭示出新的架构和异常。数据质量的业务规则引擎和新的智能算法可以大规模自动修复这些。

 

500385230 - 大数据时代数据质量非常重要

 

客户数据:似乎维护传统企业客户数据的质量还不够具有要求,许多企业现在正从智能手机应用程序、网站访问、第三方数据提供商、社交媒体以及越来越多的客户渠道和接触点获取客户数据。对于这些企业来说,客户数据就是新的大数据。所有成熟的数据质量工具都具有为客户领域设计的功能。这些工具中的大多数最近都进行了更新,以支持大数据平台和云,以利用它们的速度和规模。

 

自动化的工具:大数据的规模、复杂性、来源和用途都是非常之大,以至于数据专业人士和数据分析师难以准确、高效地将工作扩展到大数据。此外,一些业务用户希望探索和配置数据,发现质量问题和机会,甚至以自我服务的方式对数据进行补救。这两种场景都需要工具自动化。

 

565102 - 大数据时代数据质量非常重要

 

数据质量工具长期以来一直支持业务规则来自动做出一些开发和修复决策。业务规则不会消失,多种类型的用户仍然觉得它们很有用,而且许多用户拥有一个他们无法放弃的大型规则库。

 

最近为各种数据管理工具(包括数据质量管理工具)提供的自动化新方法正在加入业务规则。这些通常采用智能算法的形式,应用基于人工智能和机器学习的预测功能,自动确定数据的状态,应用的质量功能,以及如何与开发人员和用户协调这些操作。

 

500382934 - 大数据时代数据质量非常重要

 

数据质量采用现代数据管理的新范式

必须更改数据质量的实践(以及数据集成、元数据管理和客户视图的相关实践),以遵循不同的范例。请注意,在下面的示例中,大多数范式转换都是满足大数据分析新需求所需要的。

 

尽快摄取大数据,以后再改进:数据管理领域最强劲的趋势之一是,更快地存储传入数据,以便对时间敏感的流程(如运营报告和实时分析)尽早访问大数据。在这些场景中,持久化数据优先于提高数据的质量。为了加速数据到存储的持久性,在假定用户和流程可以在访问或重新使用大数据时进行这些改进的前提下,很少或省略数据的预先转换或聚合。

 

实时大数据质量:这些范式转变的分支是数据聚合和质量改进越来越多地在阅读时间或分析时间内完成,这使得数据质量执行更接近实时。此外,实时的大数据质量功能有时会嵌入到其他解决方案中,尤其是用于数据集成、报告和分析的解决方案。为了支持嵌入并实现实时性能,现代工具将大部分数据质量功能作为服务提供。今天的高速cpu、内存处理、数据流水线和MPP数据架构提供了在大数据规模上实时执行数据质量所需的高性能。

 

保存大数据的原始状态,以备将来重新使用:新建立的大数据实践是保存来自数据源的所有详细内容、结构、条件,甚至异常情况。存储和保护大数据的到达状态为需要详细源信息的用例提供了一个大规模的数据存储(通常是一个数据湖)。用例包括数据探索、数据发现和基于挖掘、集群、机器学习、人工智能和预测算法或模型的面向发现的分析。

 

此外,详细源数据的存储可以重复地用于未来的分析应用程序,这些应用程序的数据需求是不可能预先知道的。聚合、标准化和完全清除的数据是不能像到达状态的数据那样灵活或广泛地重新使用。

 

适合上下文的数据质量:今天的分析用户倾向于尽可能少地改变大数据子集,因为现代分析的大多数方法往往与原始详细的源数据协作,而分析常常依赖于发现的异常。例如,非标准数据可能存在忽悠的现象,异常值也可能是新客户群的先兆。