当前位置 > CPDA数据分析师 > “数”业专攻 > 大数据分析,选择正确的大数据分析工具很重要

大数据分析,选择正确的大数据分析工具很重要

来源:数据分析师 CPDA | 时间:2019-01-11 | 作者:admin

大数据工具 - 大数据分析,选择正确的大数据分析工具很重要

 

大数据越来越大,但并不是所有数据都是平等的。有时候,利用数据就像在街角的商店里执行一项小而关键的任务,在其他时候,你可以悠闲地逛一逛仓库,仔细查看一下库存。与分析数据处理所需的工具相比,处理事务性数据所需的目标和技术是完全不同的,为这项工作选择合适的大数据分析工具,了解运营数据与分析数据之间的巨大差异和细微差别非常重要。

 

操作或事务数据处理重点是响应时间的低延迟和处理许多并发请求,可能会涉及到一些实时分析,但它们通常仅限于与最终用户的即时决策过程相关的一小部分变量。这些信息可能显示在一个简单的仪表板上,该仪表板允许业务用户基于自己的需求和经验水平运行标准或自定义报告。数据事务最重要的特性之一是可靠性。

 

数据分析工具 - 大数据分析,选择正确的大数据分析工具很重要

 

相比之下,分析通常涉及使用复杂查询结构处理大量数据吞吐量的能力。虽然流式分析可能是特定用例的一个特性,但对于许多企业来说,分析仍然主要集中于回顾历史数据,以便进行更长期的规划和预测。例如,企业可能希望分析上一季度的销售情况,或者使用机器学习操作来查看给定情况下客户购买的产品。在最具挑战性的情况下,企业可能并不确切知道他们在寻找什么——或者他们可能有意尝试不同的方法来从现有的数据存储中获取价值。数据科学家可能会被要求设计正确的查询,以交付相关的业务洞察力。

 

Dremio首席架构师、Apache Parquet联合创始人朱利安•勒•丹姆(Julien Le Dem)提供了一种简单的方式来思考这种差异:移动数据是事务性的,处理数据是分析性的。“同时处理很多记录,而不是一次只处理一个或几个记录。”分析是关于非常有效地提取你感兴趣的部分,并基于这些数据产生结果。

 

数据分析师工具 - 大数据分析,选择正确的大数据分析工具很重要

 

大数据分析工具已经出现,用于实时、交互式工作负载和对大型数据集的回顾性、复杂性分析。MongoDB和IBM的主要参与者大数据空间数据分析工具,提供一些关键的见解之间的差异。下面是一个简要的概述:

 

据IBM称,NoSQL系统(如文档数据库和键值存储)是快速,可扩展的操作数据库的常用解决方案。使用适当的NoSQL数据库,可以更快地处理事务,并且系统可以在峰值活动期间同时处理许多小事务。每秒事务被视为比响应时间更相关的性能指标。

 

大规模并行处理(MPP)数据库和MapReduce(包括Hadoop等变体)是分析领域的关键解决方案。甚至出现了一些新的解决方案,旨在满足企业在跨SQL和NoSQL分析数据、在单个分析平台中显示Graph、R和MapReduce方面的需求。

 

事务系统针对短、原子、重复、面向选择的操作和事务进行了优化,这些系统可以针对频繁使用的操作进行非常精细的优化。它们的特点是高度依赖缓存、大量资源共享和指定的代码路径。

 

大数据应用工具 - 大数据分析,选择正确的大数据分析工具很重要

 

分析系统提供功能丰富性; 处理速度或快速响应时间; 和易用性。它们通分析系统提供丰富的功能;处理速度或快速响应时间,以及易用性。它们通常具有MPP中的大量容量。这种系统能够在需要时快速移动数据,但其设计目的是减少整体数据移动。它们几乎不依赖于共享结构。这些功能可以构建到服务器中并可扩展,以满足不断发展的最终用户需求。

 

依赖单个数据库系统来处理两种类型的活动对IT来说都是劳动密集型的,因为传统数据库系统在处理分析性和事务性工作负载时表现出很大的性能差异。当然,并非所有的大数据分析工具都能满足所有可能的需求,这意味着在企业层面上,大多数企业最终会使用互补的系统来满足所有的数据工作负载需求