当前位置 > CPDA数据分析师 > “数”业专攻 > 快速理解大数据,了解数据挖掘和机器学习

快速理解大数据,了解数据挖掘和机器学习

来源:数据分析师 CPDA | 时间:2018-09-17 | 作者:admin

数据挖掘和大数据可以做什么?

简而言之,它们赋予我们预测能力。

我们的生活已经数字化了

我们每天所做的许多事情都可以记录下来。 每张信用卡交易都是数字化和可追溯的。 我们的公众形象一直受到许多中央电视台在城市各个角落的监控; 对于企业而言,大多数财务和运营数据都保存在某些类型的ERP中; 随着可穿戴设备的兴起  ,每一次心跳和呼吸都被数字化并保存为可用数据。正当我们的大部分生活被数字化时,计算机现在可以比以往更好地“理解”我们的世界。

 

u4137307075772167893fm26gp0 - 快速理解大数据,了解数据挖掘和机器学习

 

2.如果模式保持不变,则过去=未来

我们生活中的许多不同事物都表现出模式。例如,一个人可能在任何工作日内在工作和家庭之间旅行,或者在任何非工作日去度假或看电影,这种模式不太可能改变。商店将拥有任何一天的高峰时段和闲置时间,这种模式不太可能改变。企业将在一年中的某些月份要求更高的劳动力投入,这种模式不太可能改变。

 

总结第1点和第2点,我们可以得出结论,如果提供过去的模式,计算机很可能预测未来,因为这些模式在很长一段时间内最可能是一致的。

如果计算机可以预测人们的生活方式,它将准确知道什么时候是适合促销的最佳时间,例如,如果这个人每周五的星期五都要洗车,或者是优惠券,那就是洗车促销如果这个人每年三月都要去度假,那就留下来。Businesswise,计算机还可以  预测商店全天的销售预测,然后制定业务战略以最大化总收入。对于企业而言,计算机还可以设计出最合理的劳动力安排的最佳运营计划。

一旦未来变得可预测,我们可以随时提前计划并为可能的最佳行动做好准备。就像“黑客帝国”中的Neo一样,他能够躲避所有的子弹,因为他可以清楚地看到子弹的来源。根据夏洛克·福尔摩斯的说法,“对概率数学的高级掌握,对人类心理学的彻底理解,以及任何特定个体的已知倾向都可以大大减少变量的数量”,换句话说,“大数据给了我们预测未来的力量“。  这是数据挖掘的力量。数据挖掘始终与大数据联系在一起,因为大数据支持大量数据集,从而为所有预测提供了基础。

 

那么,大数据,数据挖掘和机器学习到底是什么?

 

u3348047913652605497fm26gp0 - 快速理解大数据,了解数据挖掘和机器学习

大数据

当数据量巨大时,很明显这些数据无法在任何一台机器上处理。一个非常大的文件,比方说10GB,你可能无法在任何Windows系统中打开它,然后崩溃整个事情。 为此目的开发了大数据。您可以将其视为一种特殊的软件,它将大文件拆分为更小的文件,然后可以在多台计算机上进行处理。分割和组合数据片段的过程称为MapReduce。最常用于此过程的软件框架,称为Hadoop。Hadoop解决了基本问题,并且有许多工具可以与Hadoop一起使用,例如Pig,Zookeeper和Hive,以使过程更加容易。Hadoop连同它的许多相关工具通常被称为“大数据技术”。

 

下载 - 快速理解大数据,了解数据挖掘和机器学习

 

机器学习

刚才我们根据一块数据的处理方式进行了触摸。假设这条数据包含一组购物者的购买行为,包括购买的商品总数,每个购物者购买的商品数量。这是迄今为止简单的统计分析。但是,如果我们的目标是分析不同类型的购物者之间的相关性,或者如果我们想要推断特定类型的购物者的特定偏好,或者甚至预测任何购物者的性别或年龄,我们将需要更多复杂的模型,我们称之为算法。机器学习可以更容易理解为为数据挖掘目的而开发的所有不同类型的算法,例如逻辑回归,决策树,协同过滤等等。

 

u3186462981751205651fm26gp0 - 快速理解大数据,了解数据挖掘和机器学习

 

数据挖掘

通过应用机器学习算法,现有数据实际上可用于预测未知数,这正是数据挖掘的奇迹与机器学习密切相关的原因。然而,任何机器学习算法的强度在很大程度上取决于大量数据集的供应。请记住,无论算法有多复杂,都不能从几行数据中做出灵感预测。大数据技术是机器学习的前提,通过使用机器学习,我们能够从现有数据集中获得有价值的见解,这就是数据挖掘。