当前位置 > CPDA数据分析师 > “数”业专攻 > 非常适合大数据分析的几种方式

非常适合大数据分析的几种方式

来源:数据分析师 CPDA | 时间:2019-06-11 | 作者:admin

R开源脚本语言于1995年发布,自那以后,它一直在高效地发展,已经成为全球数据科学家的首选语言。R包含了大量的数据包、货架图函数等,由于其具备有效的数据处理能力,被证明是一种精通大数据分析的语言。像微软、谷歌这样的科技巨头也在使用R进行大型数据分析。以下列出了6种方法R,统计语言可以用于大数据分析。

 

数据分析 - 非常适合大数据分析的几种方式

 

1 | 数据分析

探索性数据分析是使用R进行数据分析的一个术语。这是一种数据分析方法,包括各种技术,如提取重要变量,测试基本假设,最大化对数据集的洞察力等。

 

数据可视化 - 非常适合大数据分析的几种方式

 

2 | 数据可视化

R有一些内置的绘图命令,这使得创建简单的图形更加容易。而ggplot2可以说是最通用的数据可视化软件包之一。ggplot2实现了图形语法,这是一个描述和构建图形的连贯系统。这个包允许用户在高抽象级别上添加、删除或更改图中的组件。

 

数据流 - 非常适合大数据分析的几种方式

 

3 | 数据流

数据流是将数据以可视化和建模的有用形式转换为R的艺术。它包含数据转换,在项目过程中起着至关重要的作用。它主要包括导入、整理和转换三个主要部分。

 

RHIPE - 非常适合大数据分析的几种方式

 

4 | RHIPE

RHIPE代表R和Hadoop集成编程环境。它是一个软件包,允许R用户使用R表达式创建完全在R环境中工作的MapReduce作业。该软件包使用分离和重组技术在大数据上执行数据分析。与R的集成是MapReduce的一个革命性变化,因为它允许分析人员快速指定映射,并使用R解释语言的全部功能、灵活性和可表达性进行简化。

 

ORCH - 非常适合大数据分析的几种方式

 

5 | ORCH

ORCH是Oracle R Connector for Hadoop的缩写,它是R软件包的集合,提供了预测分析技术,可以用R或Java编写为Hadoop MapReduce作业,可以应用于HDFS文件中的数据。它还提供了与Hive表、Apache Hadoop计算基础设施、本地R环境和Oracle数据库表一起工作的接口。ORCH中的分析算法有线性回归、预测神经网络、聚类、低秩矩阵分解的矩阵补全和非负矩阵分解等。

 

RHadoop - 非常适合大数据分析的几种方式

 

6 | RHadoop

RHadoop是一个由5个R包组成的开源集合,用户可以在R环境中使用Hadoop管理和分析数据。熟悉R的数据科学家直接使用R的分析能力,快速利用MapR Hadoop发行版的企业级功能,RHadoop的三个包如下

 

Rhdfs:此包提供与Hadoop分布式文件系统的基本连接。

rmr2:该软件包允许R开发人员通过Hadoop集群上的Hadoop MapReduce功能在R中执行统计分析。

rhbase:此包使用Thrift服务器提供与HBASE分布式数据库的基本连接。

Plyrmr:该软件包使R用户能够在存储在Hadoop上的非常大的数据集上执行常见的数据操作操作,如plyr和reshape2等流行软件包中的操作。

Ravro:该软件包增加了从本地和HDFS文件系统读取和写入avro文件的功能,并为rmr2添加了avro输入格式。