当前位置 > CPDA数据分析师 > “数”业专攻 > 这样解说大数据,理解起来更方便!

这样解说大数据,理解起来更方便!

来源:数据分析师 CPDA | 时间:2019-01-14 | 作者:admin

大数据教程

大数据一词,我相信在过去和现在的时间里,每个人都在谈论大。但是真的谈论就真的知道大数据是什么吗?它如何影响我们的生活以及为什么企业一直正在寻找拥有大数据技能的专业人员?

 

让我以一个简短的故事开始这个大数据教程。

 

soft testing3 - 这样解说大数据,理解起来更方便!

 

大数据的故事

在古代,人们常常骑着马车从一个村庄旅行到另一个村庄,但是随着时间的推移,村庄变成了城镇,人们分散开来。从一个城镇到另一个城镇的距离也增加了。所以,带着行李在城镇之间旅行成了一个问题。一个聪明的小伙子突然建议,我们应该多给马梳洗和喂食,以解决这个问题。另一个聪明的人说,与其让1匹马拉车,不如让4匹马拉车。你们觉得这个解怎么样?我认为这是一个很好的解决方案。现在,我们可以在更短的时间内旅行很远的距离,甚至可以携带更多的行李。

 

同样的概念也适用于大数据。直到今天,我们还可以把数据存储到我们的服务器上,因为数据的容量非常有限,处理这些数据的时间也很有限。但是现在在这个科技发达的世界,数据增长太快,人们很多时候都依赖于数据。而且数据增长的速度越来越快,因此不可能将数据存储到任何服务器中。

 

由于许多原因,全球的数据量呈指数级增长。各种来源和我们的日常活动产生了大量的数据。随着网络的发明,整个世界都上网了,我们做的每一件事都留下了数字痕迹。随着智能对象的上线,数据增长速度迅速。大数据的主要来源是社会化媒体网站、传感器网络、数字图像/视频、手机、购买交易记录、网络日志、病历档案、军事监控、电子商务、复杂科研等。所有这些信息相当于大约1万亿字节的数据。到2020年,数据量将达到40zettabytes左右,相当于地球上每一粒沙子的总和乘以75。

 

大数据是一个术语,用于大型和复杂的数据集合,使用可用的数据库管理工具或传统的数据处理应用程序很难存储和处理。挑战包括收集,策划,存储,搜索,共享,传输,分析和可视化这些数据。

 

Big Data Volume Growth Big Data Tutorial Edureka 395x300 - 这样解说大数据,理解起来更方便!

 

定义大数据的五个特征是:体积,速度,品种,准确性和价值。

 

体积

成交量指的是“数据量”,它正以非常快的速度与日俱增。人类、机器以及它们在社交媒体上的互动所产生的数据量是巨大的。研究人员预测,到2020年将产生40Zettabytes(40000Exabytes),比2005年增加了300倍。

 

速度

速度被定义为不同来源每天产生数据的速度。这种数据流是大量且连续的。截至目前,移动端月活跃用户(微信) 10.8亿。这显示了社交媒体上的用户数量增长有多快,以及数据每天生成的速度有多快。如果能够处理速度,那么就能够根据实时数据生成见解并做出决策。

 

Velocity Big Data Tutorial Edureka 528x173 - 这样解说大数据,理解起来更方便!

 

品种

由于大数据的来源很多,所以它们产生的数据类型是不同的。它可以是结构化的、半结构化的或非结构化的。因此,每天都会生成各种各样的数据。之前我们使用excel和数据库获取数据,现在数据以图像、音频、视频、传感器数据等形式出现,如下图所示。因此,这种非结构化数据在捕获、存储、挖掘和分析数据时产生了问题

 

准确性

准确性是指由于数据不一致和不完整而导致数据存在疑问或不确定的数据。在下面的图像中,可以看到表中缺少了一些值。另外,有一些值很难接受,例如第三行中的15000最小值,这是不可能的。这种不一致性和不完整性就是准确性。

可用的数据有时会变得混乱,甚至难以信任。在很多形式的大数据中,质量和准确性都很难控制,比如带有标签、缩写、拼写错误和口语的帖子。

 

Veracity Big Data Tutorial Edureka 528x195 - 这样解说大数据,理解起来更方便!

 

价值

在讨论了体积、速度、多样性和准确性之后,在看待大数据时,还需要考虑另一个即价值。能接触到大数据固然好,但除非我们能将其转化为价值,否则它就毫无用处。

 

大数据的类型

 

大数据可以有三种类型:

结构化的

半结构化

非结构化

 

结构化

可以以固定格式存储和处理的数据称为结构化数据。存储在关系数据库管理系统(RDBMS)中的数据就是“结构化”数据的一个例子。结构化数据具有固定的模式,因此很容易处理。结构化查询语言(SQL)通常用于管理这类数据。

 

半结构化

半结构化数据是一种没有数据模型的正式结构的数据类型,即关系DBMS中的表定义。但是尽管如此,它仍然具有一些企业属性,如标签和其他标记,用于分离语义元素,使其更容易分析。XML文件或JSON文档是半结构化数据的例子。

 

非结构化

如果数据的形式未知,且不能存储在RDBMS中,除非将其转换为结构化格式,否则无法进行分析,则称为非结构化数据。文本文件和图像、音频、视频等多媒体内容是非结构化数据的例子。非结构化数据的增长速度比其他数据快,专家说,组织中80%的数据是非结构化的。