当前位置 > CPDA数据分析师 > “数”业专攻 > 大数据分析工具,你平常都用什么

大数据分析工具,你平常都用什么

来源:数据分析师 CPDA | 时间:2019-06-18 | 作者:admin

根据定义,大数据是关于收集大量结构化和非结构化数据。是对收集的信息进行分析,以找出原本未被发现的模式和含义。

 

解释大数据需要大数据分析工具的领域,它为企业提供了不同的功能,以获得竞争价值。

 

分析能力:针对不同类型的分析,有多种不同模型的分析功能,包括:预测挖掘、决策树、时间序列、神经网络、路径分析、市场篮子分析和链接分析。

 

集成:通常,组织需要额外的统计工具和编程语言(如R)来进行其他形式的自定义分析。

 

数据导入和导出:从各种工具中获取数据是一个关键特性,理解将分析工具连接到大数据存储库有多难(或多容易)是一个关键考虑因素。

 

Vizualization:看到数字是一回事,但是以图形格式显示数据通常会使数据更有用。

 

可伸缩性:大数据可以是大的开始,一般有一个趋势,甚至随着时间的推移变得更大。组织需要考虑并理解他们选择的分析工具的可伸缩性选项。

 

协作:分析有时可能是一个单独的练习,但更多时候它涉及到协作。

 

大数据分析工具,涵盖了市场的多个方面的都有哪些:

 

Cloudera

Microsoft Power BI

Oracle Analytics Cloud

Pentaho Big Data Integration and Analytics

SAS Institute

Sisense

Splunk

Tableau

 

Cloudera - 大数据分析工具,你平常都用什么

 

Cloudera

谈到大数据的核心,很少有公司像Cloudera 那样与核心Hadoop大数据开源平台紧密相关。毕竟,Hadoop的创始人本身就是公司的创始人。Cloudera最近在Hadoop生态系统中获得了更大的立足点,Hortonworks是其主要竞争对手的合并。

 

Cloudera的关键区别在于公司对Hadoop的深刻理解和核心竞争力,Hadoop的产品组合包括公司的Cloudera Enterprise平台。它建立在开源CDH发行版之上。

 

Cloudera的大数据工具非常适合需要完整堆栈的组织,其中包括用于收集和创建大数据的核心Hadoop技术。借助Cloudera Enterprise,组织可以使用各种集成工具创建和处理预测分析模型。

 

Microsoft Power BI - 大数据分析工具,你平常都用什么

 

Microsoft Power BI微软

微软的Power BI一直是商业智能领域分析公司的常青睐,主要基于该平台的易用性和可访问性。

 

在2018年,Microsoft扩展了Power BI,将相同的易用性扩展到大数据,实现数据摄取和转换。该平台的关键区别在于与Azure Data Lake Storage Gen2集成,后者支持用于高级大数据分析的HDFS(Hadoop分布式文件系统)。

 

Power BI是寻求轻松进入大数据分析的组织的理想选择,对于那些已经在Microsoft堆栈上标准化的人来说,它是一个特别明显的选择。Power BI提供基于云的业务分析,并将Microsoft称为“内容包”的内容与预先构建的仪表板集成,并针对不同类型的分析和数据监控进行报告。该平台中的协作功能使用户能够共享数据和仪表板,同时还提供警报功能。

 

Oracle Analytics Cloud - 大数据分析工具,你平常都用什么

 

Oracle Analytics Cloud神谕

Oracle并不总是被称为大数据分析提供商,但它是数据库巨头近年来积极进军的领域。消费使用模型上的自助式大数据分析就是Oracle Analytics Cloud的全部内容。

 

用户评论的Oracle Analytics Cloud的关键区别在于平台针对不同类型的分析和大数据分析用例的自动化功能。已经习惯使用Oracle工具的组织(包括Oracle的同名数据库)可能是Analytics Cloud产品中最受吸引的组织。

 

将多个数据源整合在一起的能力是Oracle Analytics Cloud的核心功能,具有强大的基础架构,包括用于提取数据的Oracle Event Hub云服务和用于存储数据的Oracle大数据云服务。

 

Pentaho Big Data Integration and Analytics - 大数据分析工具,你平常都用什么

 

Hitachi Vantara Pentaho 日立

Hitachi并不是许多与大数据相关联的名称,但自从公司于2015年收购Pentaho以来,它一直是该领域的坚实参与者。

 

Pentaho的根源在于其开源分析平台,在该平台上构建了更广泛的企业版。这是平台的开源特性,是一个关键的差异化因素,并且已经导致广泛的用户群体,这也被用户视为关键优势。

 

对于拥有大量不同类型数据和大数据源的组织,Pentaho是一个不错的选择。快速摄取和混合来自不同来源的数据的能力是用户从Pentaho大数据集成和分析平台获得的另一个关键优势。Pentaho的平台支持多种模型,包括预测分析,帮助组织指导特定结果。

 

SAS Institute - 大数据分析工具,你平常都用什么

 

SAS Visual AnalyticsSAS

SAS Institute在分析市场上有着悠久的历史,早在几十年前就将大数据用作术语和技术。该公司在分析方面拥有深厚的领域专业知识,这些专业知识体现在可帮助实现大数据分析的众多不同产品中,其中包括在更广泛的SAS平台上运行的可视分析解决方案。

 

Visual Analytics适用于正在寻找深度分析工具的用户和组织,具有用于构建高级可视化的拖放功能。平台对于不同类型的商业智能和数据报告需求的可扩展性是该平台的关键区别。

 

协作是一个核心组件,能够跨多个选项共享信息和评论,包括移动设备,Web浏览器甚至Microsoft Office应用程序。SAS Visual Analytics可以在本地部署,也可以作为云中的服务部署。

 

Sisense - 大数据分析工具,你平常都用什么

 

Sisensesisense

将大数据存储库置于可以快速用于分析的状态是一项非常重要的挑战,Sisense旨在通过其平台帮助解决

 

有助于简化大数据准备分析的承诺是Sisense的一个优势领域和关键区别,其大数据准备功能旨在使用户更容易建模数据。

 

对于寻求快速实施时间和可靠客户支持的大型组织而言,Sisense是一个不错的选择。通过系统仪表板进行的数据可视化通常被用户视为易于使用,并且可以节省时间以获得所需的结果。访问仪表板和共享数据是该平台的另一个核心优势,具有移动和Web选项以及轻松生成不同类型报告的能力。

 

Sisense为其平台提供内部部署和基于云的产品。

 

Splunk - 大数据分析工具,你平常都用什么

 

Splunk

Splunk最初是一个日志分析平台,并且发现了忠实的用户和组织,他们喜欢平台的工作方式,并支持数据操作和可视化。对于已经使用Splunk进行日志或其他类型分析的组织,使用Splunk Analytics for Hadoop是一个简单的步骤。

 

Splunk作为一个平台以其用户友好的基于Web的日志检查和分析功能而闻名,可以扩展为查看Hadoop系统中的大数据存储。该平台受益于经过验证的协作组件,使用户能够创建和共享图形和分析仪表板。

 

Splunk的主要区别包括能够与Splunk平台的其他元素集成,包括安全控制和Splunk自己的搜索过程语言(SPL),这进一步为用户提供了强大的好处。

 

Tableau 1 - 大数据分析工具,你平常都用什么

 

Tableau画面

Tableau平台是分析市场公认的领导者,对于在任何领域的企业中工作的非数据科学家来说都是一个很好的选择。

 

Tableau核心的VizQL数据可视化技术是整个平台的关键差异化因素,无需首先组织数据即可创建数据可视化。与大数据的不同类型和后端的连接也是Tableau平台的核心属性。

 

用户从Tableau中获得的一大好处是能够在大数据环境中重用现有技能。Tableau利用标准化的SQL(结构化查询语言)来查询大数据系统并与之交互,从而使组织可以利用现有的数据库和分析师技能集从大型数据集中查找他们正在寻找的洞察力。Tableau还集成了自己的内存数据引擎,称为“Hyper”,可实现快速数据查找和分析。