2021年数据团队的未来发展

NEWS前沿动态

2021年数据团队的未来发展

来源：CPDA数据分析师网 / 作者：数据君 / 时间：2021-01-15

趋势1：计算和数据的分离成为新的架构范例
分离计算和存储以轻松，经济地扩展存储容量而不依赖于分析所需的计算资源的概念已经存在了好几年，但是直到向公共云的广泛迁移，该概念才成为现实，在云中计算和存储的分离提供了在以下场所无法实现的效率。

1、原始存储非常便宜且易于访问，数据团队可以轻松经济地扩展存储以匹配快速增长的数据量
2、可按需提供计算能力，这意味着组织只需为他们的工作负载付费
3、隔离计算群集，以使不同的工作负载不会相互影响

但是在来年将会出现另一种充分利用云基础架构资源的范例-将数据放在架构的中心：计算和数据的分离。

云对象存储已越来越成为云中的默认位存储桶
新的开源项目使各种系统都可以选择，插入，更新和删除S3和ADLS中的记录，就像它们是无限的一样可扩展数据库，可以通过解耦和弹性计算引擎（例如Apache Spark（批处理），Dremio（SQL）和Apache Kafka（流式处理））直接处理和查询表，结果数据本质上成为了自己的层，使我们能够以完全不同的方式考虑数据架构。

趋势2：与云数据仓库相关的隐藏成本降低了它们的吸引力
与传统数据仓库相比，云数据仓库供应商利用存储与计算的分离来提供具有更高可伸缩性和较低初始成本的产品，但是为了分析数据，必须将其加载到数据仓库中，并且只能通过数据仓库进行访问-数据本身不会与计算分离，这意味着组织必须向数据仓库供应商付费才能将数据输入到系统中或从系统中获取数据，因此尽管云数据仓库的前期费用可能较低，但到年底的成本明显高于预期。

凭借其低成本的云对象存储，云数据湖正日益成为许多组织数据架构的重心
尽管传统的SQL查询引擎和数据仓库都提供了直接查询数据湖中数据的机制，但是性能不足以满足分析团队的需求，因此数据团队仍然需要将数据从其数据湖复制并移动到其数据仓库，并产生相关的数据摄取成本，但是通过利用Iceberg和Nessie等开放源代码表格式以及现代云数据湖引擎，数据团队可以实现数据体系结构，使数据使用者可以直接查询和操作数据湖中的数据而不会降低性能。结果是极大地降低了复杂性，并降低了与数据副本和在数据仓库中提取数据相关的成本。

趋势3：云数据湖功能将超过数据仓库的功能
数据仓库为数据分析之外的分析工作负载提供了多种关键功能，包括数据突变，事务和时间旅行（即使已更改或删除，也可以从某个时间点访问历史数据），这些功能是通过专有的垂直集成系统提供的，这些系统需要所有访问权限才能通过数据库并由数据库进行处理，这种单系统方法简化了并发管理和更新，但是这也增加了成本并限制了灵活性。

一种新的开源表格式，可以应对这些挑战，并且正迅速成为管理数据湖中数据的行业标准

引入新功能这些功能使多个引擎能够以事务一致的方式在同一数据上协同工作，并随着数据集的发展而定义有关数据集状态的其他信息,数据湖表不再局限于选择查询，现在可以支持记录级的突变（插入，更新，删除），时间旅行和事务,另一个新的开源项目,通过为数据湖提供类似Git的语义，在表格式（例如Iceberg和Delta Lake）的功能上建立了基础,使用Nessie，用户可以利用分支机构进行实验或准备数据，而不会影响数据的实时视图,松散耦合的交易已成为现实，这是有史以来次，它使跨多个用户和引擎（Spark，Dremio，Hive等）的操作成为可能,此外从一致的时间点和跨不同的时间点查询数据的能力使重现结果，理解更改和支持合规性要求变得更加容易。

Prev article

数据分析师使用的10种受欢迎的机器学习框架

返回列表

Next article

人工智能将如何塑造客户交流的未来