当前位置 > CPDA数据分析师 > “数”业专攻 > 这些数据分析方法和技术,可以了解下

这些数据分析方法和技术,可以了解下

来源:数据分析师 CPDA | 时间:2019-05-30 | 作者:admin

微信截图 20190522131010 - 这些数据分析方法和技术,可以了解下

 

信息化数字时代导致数据世界的急速增长。毫无疑问,它需要充分有效及不同类型的数据分析方法、技术和工具,以满足不断增长的业务研究需求。

 

实际上,数据挖掘没有自己的数据分析方法。它使用其他相关科学领域的方法和技术。

 

用于小型和大型数据分析的方法包括:

数学和统计技术

方法基于人工智能,机器学习

可视化和图形方法和工具

数据分析的数学和统计方法

 

数学和统计科学对数据挖掘管理和分析有很大帮助。实际上,大多数数据挖掘技术都是统计数据分析工具。一些方法和技术是众所周知的并且非常有效。

 

描述性分析

 

描述性分析是对过去的洞察力。这种统计技术完全符合它的名称——“描述”。它会查看数据并分析过去的事件和情况,以便了解如何实现未来。

 

描述性分析会查看过去/历史绩效,以了解过去失败或成功背后的原因。

 

它使我们能够从过去的行为中学习,并了解它们如何影响未来的表现。

 

回归分析

 

回归分析允许对因变量和一个或多个自变量之间的关系进行建模。在数据挖掘中,该技术用于在给定特定数据集的情况下预测值。例如,当考虑其他变量时,回归可用于预测产品的价格。

 

注意:

回归是各种行业中最常用的数据分析方法之一,用于商业或营销计划,财务预测等。

 

存在大量不同类型的回归模型,例如线性回归模型,多元回归,逻辑回归,岭回归,非线性回归,生命数据回归以及许多其他模型。

 

因子分析

 

因子分析是一种基于回归的数据分析技术,用于在一组变量中查找底层结构。

它寻找新的独立因子(变量)来描述原始因变量之间关系的模式和模型。

 

因子分析是一种非常流行的工具,用于研究复杂主题的变量关系,如心理量表和社会经济状况。

 

分散分析

 

分散分析不是在数据挖掘中使用的常见方法,但仍然在那里发挥作用。分散是一组数据被拉伸的范围。这是一种描述如何扩展一组数据的技术。

 

分散度量有助于数据科学家研究事物的变异性。

 

通常,分散有两个问题:第一,它代表事物之间的变化,第二,它代表平均值附近的变化。如果值和平均值之间的差异很大,则分散很高,否则,它很低。

 

判别分析

 

判别分析是数据挖掘中最强大的分类技术之一。判别分析利用对不同项目组的可变测量来强调区分这些组的点。这些测量用于分类新项目。

 

这种方法的典型例子是:将信用卡申请分为低风险和高风险类别,将新产品的客户分为不同的组,涉及酗酒者和非酗酒者的医学研究等。

 

间序列分析

 

在几乎每个科学领域,测量都会随着时间的推移而执行。这些观察结果导致了一系列有组织的数据,称为时间序列。

 

时间序列的一个很好的例子是股票市场指数的每日价值。

 

注意:

时间序列数据分析是建模和解释时间相关的数据点系列的过程。目标是从数据的形状中提取所有有意义的信息(统计规则和模式)。

 

之后,此信息用于创建和建模能够预测未来演变的预测。

 

mtxx54 - 这些数据分析方法和技术,可以了解下

 

基于人工智能,机器学习和启发式算法的方法

 

这些现代方法以其扩展的能力和解决非传统任务的能力吸引了数据科学家的注意力。此外,它们可以通过特殊的软件系统和工具轻松有效地实施和执行。

 

以下列出了一些最流行的这些类型的数据分析方法:

 

人工神经网络

 

毫无疑问,这是最流行的新型和现代型数据分析方法之一。

 

根据“中立网络是一个美丽的生物学启发的编程范例,它使计算机能够从观察数据中学习”,人工神经网络(ANN),通常被称为“神经网络”,提供了信息处理的大脑隐喻。

 

这些模型是生物学启发的计算模型。它们由一组相互连接的人工神经元和使用计算方法的过程信息组成。

 

神经网络在数据挖掘中的应用非常广泛。它们具有高噪声数据和高精度的接受能力。详细研究了基于神经网络的数据挖掘。在许多预测和业务分类应用中,神经网络已被证明是非常有前途的系统。

 

决策树

 

这是数据挖掘和机器学习中另一种非常流行的现代分类算法。决策树是树形图,表示分类或回归模型。

 

它将数据集划分为越来越小的子数据集(包含具有相似值的实例),同时不断开发相关的决策树。构建树是为了在分支的帮助下显示一个选择如何以及为什么会导致下一个选择。

 

使用决策树的好处包括:不需要领域知识; 他们很容易理解; 决策树的分类步骤非常简单快速。

 

进化规划

 

数据挖掘中的进化编程是一种常见概念,它使用进化算法组合了许多不同类型的数据分析。其中最受欢迎的是:遗传算法,遗传编程和协同进化算法。

 

事实上,许多数据管理机构采用进化算法来处理世界上一些最大的大数据挑战。

 

进化方法的好处包括:

它们是一种独立于领域的技术; 他们有能力探索大型搜索空间,发现好的解决方案; 它们对噪声相对不敏感,可以很好地管理属性交互。

 

500313371 - 这些数据分析方法和技术,可以了解下

 

模糊逻辑

 

应用模糊逻辑来应对数据挖掘问题的不确定性。模糊逻辑建模是基于概率的数据分析方法和技术之一。

 

这是一个相对较新的领域,但具有从不同数据集中提取有价值信息的巨大潜力 。

 

模糊逻辑是一种创新类型的多值逻辑,其中变量的真值是0到1之间的实数。在这个术语中,真值可以介于完全真和完全假之间。