当前位置 > CPDA数据分析师 > “数”业专攻 > 常用的一些数据分析工具

常用的一些数据分析工具

来源:数据分析师 CPDA | 时间:2016-01-26 | 作者:admin

3417eb9bbd9017b3774306

大数据分析平台和工具

 

 
   

Disco

 Disco最初由诺基亚开发,这是一种分布式计算框架,与Hadoop一样,它也基于MapReduce。它包括一种分布式文件系统以及支持数十亿个键和值的数据库。

 支持的操作系统:Linux和OS X。

 相关链接://discoproject.org

 

HPCC

 作为Hadoop之外的一种选择,HPCC这种大数据平台承诺速度非常快,扩展性超强。除了免费社区版外,HPCC Systems还提供收费的企业版、收费模块、培训、咨询及其他服务。

支持的操作系统:Linux。

 相关链接://hpccsystems.com

NLPIR

 NLPIR大数据搜索挖掘平台,是一种开源的大数据搜索挖掘、分析和可视化平台。你只要在//ictclas.nlpir.org/nlpir/试一下演示版,就能看到他的实际效果。

 支持的操作系统:可兼容Windows,Linux, Android,Maemo5, FreeBSD,麒麟等不同操作系统。

 相关链接:https://github.com/NLPIR-team/NLPIR

Pandas

 Pandas项目包括基于Python编程语言的数据结构和数据分析工具。它让企业组织可以将Python用作R之外的一种选择,用于大数据分析项目。

支持的操作系统:Windows、Linux和OS X。

 相关链接://pandas.pydata.org

Storm

 Storm现在是一个Apache项目,它提供了实时处理大数据的功能(不像Hadoop只提供批任务处理)。其用户包括推特、美国天气频道、WebMD、阿里巴巴、Yelp、雅虎日本、Spotify、Group、Flipboard及其他许多公司。

支持的操作系统:Linux。

 相关链接:https://storm.apache.org

商业智能

Talend Open Studio

 Talend的下载量已超过200万人次,其开源软件提供了数据整合功能。该公司还开发收费的大数据、云、数据整合、应用程序整合和主数据管理等工具。其用户包括美国国际集团(AIG)、康卡斯特、电子港湾、通用电气、三星、Ticketmaster和韦里逊等企业组织。

支持的操作系统:Windows、Linux和OS X。

 相关链接://www.talend.com/index.php

Jaspersoft

 Jaspersoft提供了灵活、可嵌入的商业智能工具,用户包括众多企业组织:高朋、冠群科技、美国农业部、爱立信、时代华纳有线电视、奥林匹克钢铁、内斯拉斯加大学和通用动力公司。除了开源社区版外,它还提供收费的报表版、亚马逊网络服务(AWS)版、专业版和企业版。

 支持的操作系统:与操作系统无关。

 相关链接://www.jaspersoft.com

Pentaho

 Pentaho归日立数据系统公司所有,它提供了一系列数据整合和业务分析工具。官方网站上提供了三个社区版;访问Pentaho.com,即可了解收费支持版方面的信息。

支持的操作系统:Windows、Linux和OS X。

 相关链接://community.pentaho.com

SpagoBI

 Spago被市场分析师们称为“开源领袖”,它提供商业智能、中间件和质量保证软件,另外还提供Java EE应用程序开发框架。该软件百分之分免费、开源,不过也提供收费的支持、咨询、培训及其他服务。

支持的操作系统:与操作系统无关。

相关链接://www.spagoworld.org/xwiki/bin/view/SpagoWorld/

KNIME

 KNIME的全称是“康斯坦茨信息挖掘工具”(Konstanz Information Miner),这是一种开源分析和报表平台。提供了几个商业和开源扩展件,以增强其功能。

支持的操作系统:Windows、Linux和OS X。

 相关链接://www.knime.org

BIRT

 BIRT的全称是“商业智能和报表工具”。它提供的一种平台可用于制作可以嵌入到应用程序和网站中的可视化元素及报表。它是Eclipse社区的一部分,得到了Actuate、IBM和Innovent Solutions的支持。

 支持的操作系统:与操作系统无关。

 相关链接://www.eclipse.org/birt/

数据挖掘

DataMelt

 作为jHepWork的后续者,DataMelt可以处理数学运算、数据挖掘、统计分析和数据可视化等任务。它支持Java及相关的编程语言,包括Jython、Groovy、JRuby和Beanshell。

支持的操作系统:与操作系统无关。

 相关链接://jwork.org/dmelt/

KEEL

 KEEL的全称是“基于进化学习的知识提取”,这是一种基于Java的机器学习工具,为一系列大数据任务提供了算法。它还有助于评估算法在处理递归、分类、集群、模式挖掘及类似任务时的效果。

支持的操作系统:与操作系统无关。

 相关链接://keel.es

Orange

 Orange认为数据挖掘应该是“硕果累累、妙趣横生”,无论你是有多年的丰富经验,还是刚开始接触这个领域。它提供了可视化编程和Python脚本工具,可用于数据可视化和分析。

 支持的操作系统:Windows、Linux和OS X。

 相关链接://orange.biolab.si

RapidMiner

 RapidMiner声称拥有250000多个用户,包括贝宝、德勤、电子港湾、思科和大众。它提供一系列广泛的开源版和收费版,不过要注意:免费的开源版只支持CSV格式或Excel格式的数据。

支持的操作系统:与操作系统无关。

 相关链接:https://rapidminer.com

Rattle

 Rattle的全称是“易学易用的R分析工具”。它为R编程语言提供了一种图形化界面,简化了这些过程:构建数据的统计或可视化摘要、构建模型以及执行数据转换。

 支持的操作系统:Windows、Linux和OS X。

 相关链接://rattle.togaware.com

SPMF

 SPMF现在包括93种算法,可用于顺序模式挖掘、关联规则挖掘、项集挖掘、顺序规则挖掘和集群。它可以独立使用,也可以整合到其他基于Java的程序中。

支持的操作系统:与操作系统无关。

 相关链接://www.philippe-fournier-viger.com/spmf/

Weka

 怀卡托知识分析环境(Weka)是一组基于Java的机器学习算法,面向数据挖掘。它可以执行数据预处理、分类、递归、集群、关联规则和可视化。

支持的操作系统:Windows、Linux和OS X。

 相关链接://www.cs.waikato.ac.nz/~ml/weka/