当前位置 > CPDA数据分析师 > 99%数据分析师关心的问题 > 大数据实战之数据分析与数据建模技术

大数据实战之数据分析与数据建模技术

来源:数据分析师 CPDA | 时间:2019-02-27 | 作者:admin

mtxx479 副本 - 大数据实战之数据分析与数据建模技术

 

据查询、数据分析与数据建模技术的介绍:

前文我们对数据查询进行了侧重简要的介绍,接下来我们再来探讨下数据分析和数据建模。

 

数据分析

目前,社交网站、电子商务等网络服务的迅速发展,使得网络服务及网络信息规模裂变式增长,这样就会对大规模数据的处理带来了很大的挑战。金融业、零售业、医疗、电信、航空等领域也会产生大量的数据,在数据挖掘中如何处理海量数据,提高挖掘质量和效率,是迫切需要解决的问题。数据固有的记录历史信息的能力,使得企业认识到,大量数据中,尤其是历史数据中是隐藏着许多有价值的东西的。

 

通过对历史数据的分析,能够对现在和未来的业务发展有很大的帮助。这种分析需要两点的支持,一是对海量数据的规整和处理,数据的量越多,数据的种类越丰富,其提供的结果越准确、越详细。二是有数据统计分析的方法,根据分析业务内容的不同,使用的分析方法也会有所不同,常用的几种分析方法包括:分类、聚合、关联等。

 

数据分析最重要的领域为数据挖掘。针对海量数据的增长速度,许多国内外从事海量数据挖掘、知识发现领域的相关人士进行了深入的研究。海量数据的存储和处理能力本身就对数据挖掘或机器学习提出了很高的要求,Google在这方面做的工作很有意义。

 

Google公司提出的MapReduce是可以在大型计算机集群上对海量数据进行并发处理的一种框架模型。它首先通过设定一个Map函数把输入数据变换成相应的键值对,然后通过自定义的 Reduce函数聚集起来具有同样键的值,并输出结果。现实世界中大都可以用此模型来表示对海量数据的处理。另外,并行数据库是数据库技术与并行技术结合的产物,并被视为种高性能的数据库系统,它能大大提高关系型数据库中处理海量数据的效率。

 

mtxx350 - 大数据实战之数据分析与数据建模技术

 

数据建模

 

数据模型是对信息系统中客观事物及其联系的数据描述,它是复杂的数据关系之间的一个整体逻辑结构图。数据模型不但提供了整个组织藉以收集数据的基础,它还与组织中其他模型一起,精确恰当地记录业务需求,并支持信息系统不断地发展和完善,以满足不断变化的业务需求。对于任何一个信息系统来说,数据模型都是它的核心和灵魂。

 

数据建模是一种用于定义和分析数据的要求和其需要的相应支持的信息系统的过程。因此数据建模的过程中,涉及的专业数据建模工作,与企业的利益和用户的信息系统密切相关。

 

从需求到实际的数据库,有三种不同的类型。用于信息系统的数据模型作为一个概念数据模型,本质上是一组记录数据要求的最初的规范技术。数据首先适合企业的最初要求,然后被转变为一个逻辑数据模型,该模型可以在数据库中的数据结构概念模型中实现。一个概念数据模型的实现可能需要多个逻辑数据模型。数据建模中的最后一步是确定逻辑数据模型到物理数据模型中对数据、访问、性能和存储的具体要求。数据建模定义的不只是数据元素,也包括它们的结构和它们之间的关系。