当前位置 > CPDA数据分析师 > “数”业专攻 > 做数据分析,推荐7款好用的Python工具

做数据分析,推荐7款好用的Python工具

来源:数据分析师 CPDA | 时间:2018-11-28 | 作者:admin

人类产生的数据量已经达到前所未有的水平,每天创造了近2.5万亿字节的数据。随着物联网和移动技术的进步,数据已成为大多数组织的核心利益。但是,比起简单地收集,更重要的是正确分析和解释数据以挖掘其中的价值。

16ec3dae66d76492d7e512b9d3592b3c - 做数据分析,推荐7款好用的Python工具

 

大多数企业从各种来源收集数据,每个数据流提供的信号理想地汇集在一起形成有用的见解。但是,能否充分利用数据取决于是否有合适的工具来清理、准备、合并并正确分析。

 

以下介绍七个数据分析师必备的Python工具:

 

Pandas

pandas是一个开源的,BSD许可的库,为Python编程语言提供高性能,易于使用的数据结构和数据分析工具。Python长期以来一直非常适合数据整理和准备,但对于数据分析和建模则不那么重要。pandas有助于填补这一空白,使您能够在Python中执行整个数据分析工作流程,而无需切换到更像域特定的语言,如R.

 

fe92520f5f6f102b672abe6675abe998 - 做数据分析,推荐7款好用的Python工具

 

结合优秀的IPython工具包和其他库,在Python中进行数据分析的环境在性能,生产力和协作能力方面表现出色。

 

PuLP

线性规划是一种优化,其中在给定一些约束的情况下应该最大化目标函数。PuLP是一个用python编写的线性编程建模器。PuLP可以生成LP文件并使用高度优化的解算器,GLPK,COIN CLP / CBC,CPLEX和GUROBI来解决这些线性问题。

 

2364b5ddc3480184a271d76b1099c30a - 做数据分析,推荐7款好用的Python工具

Matplotlib

matplotlib是一个python 2D绘图库,可以生成各种硬拷贝格式和跨平台交互式环境的出版物质量数据。matplotlib可用于python脚本,python和ipython shell,Web应用程序服务器和六个图形用户界面工具包。

 

 

798c0be23a10f0e39055def03be2a168 - 做数据分析,推荐7款好用的Python工具

 

matplotlib试图让简单的事情变得容易和艰难。您只需几行代码即可生成绘图,直方图,功率谱,条形图,错误图,散点图等。

 

对于简单的绘图,pyplot接口提供类似MATLAB的接口,特别是与IPython结合使用时。对于高级用户,您可以通过面向对象的界面或通过MATLAB用户熟悉的一组函数完全控制线型,字体属性,轴属性等。

 

cikit-Learn

Scikit-Learn是一种简单有效的数据挖掘和数据分析工具。它的优点在于它可供所有人使用,并可在各种环境中重复使用。它建立在NumPy,SciPy和mathplotlib之上。Scikit也是一个商业上可用的开源软件 - BSD许可证。Scikit-Learn具有以下功能:

 

 

1a959c46bf44ada5586d9e0ae155a45d - 做数据分析,推荐7款好用的Python工具

  • 分类 - 确定对象属于哪个类别
  • 回归 - 预测与对象关联的连续值属性
  • 群集 - 将类似对象自动分组到集合中
  • 降维 - 减少要考虑的随机变量的数量
  • 模型选择 - 比较,验证和选择参数和模型
  • 预处理 - 特征提取和规范化

Spark

Spark由一个驱动程序组成,该程序运行用户的主要功能并在集群上执行各种并行操作。Spark提供的主要抽象是弹性分布式数据集(RDD),它是跨群集节点分区的元素集合,可以并行操作。RDD是通过从Hadoop文件系统(或任何其他Hadoop支持的文件系统)中的文件或驱动程序中的现有Scala集合开始并对其进行转换来创建的。用户还可以要求Spark 在内存中保留 RDD,允许它在并行操作中有效地重用。最后,RDD会自动从节点故障中恢复。

 

b7d15fd4d656ebbff62986c54f51e772 - 做数据分析,推荐7款好用的Python工具

 

Spark中的第二个抽象是可以在并行操作中使用的共享变量。默认情况下,当Spark并行运行一个函数作为不同节点上的一组任务时,它会将函数中使用的每个变量的副本发送给每个任务。有时,变量需要跨任务共享,或者在任务和驱动程序之间共享。Spark支持两种类型的共享变量:广播变量,可用于缓存所有节点的内存中的值; 累加器,它们是仅“添加”到的变量,例如计数器和总和。

 

IPython

IPython是一种用于多种编程语言的交互式计算的命令shell,最初是为Python编程语言开发的,它提供增强的内省,富媒体,附加shell语法,选项卡完成和丰富的历史记录。IPython提供以下功能:

 

b5c6570d48d7a53398b138e258a739e7 - 做数据分析,推荐7款好用的Python工具

  • 强大的交互式shell(终端和基于Qt的)
  • 基于浏览器的笔记本,支持代码,文本,数学表达式,内联图和其他富媒体
  • 支持交互式数据可视化和GUI工具包的使用
  • 灵活,可嵌入的解释器,可以加载到自己的项目中
  • 易于使用,高性能的并行计算工具

GraphLab Create

GraphLab Create是一个由C ++引擎支持的Python库,用于快速构建大规模,高性能的数据产品。

 

以下是GraphLab Create的一些功能:

 

e4652df7731a5db7314d88a55a8a2514 - 做数据分析,推荐7款好用的Python工具

  • 能够在桌面上以交互速度分析TB级数据
  • 表格数据,图形,文本和图像的单一平台
  • 最先进的机器学习算法,包括深度学习,提升树和分解机器
  • 使用Hadoop Yarn或EC2群集在笔记本电脑或分布式系统中运行相同的代码
  • 使用灵活的API专注于任务或机器学习
  • 使用Predictive Services在云中轻松部署数据产品
  • 可视化数据以进行勘探和生产监控