来源:数据分析师 CPDA | 时间:2019-08-08 | 作者:admin
我们的现代信息时代导致了数据挖掘世界的高速发展。毫无疑问,它需要足够和有效的不同类型的数据分析方法、技术和工具来响应不断增长的业务研究需求。
事实上,数据挖掘并没有自己的数据分析方法。它使用其他相关科学领域的方法和技术。
在小数据和大数据分析中使用的方法有:
数学和统计技术
方法基于人工智能,机器学习
可视化和图形化的方法和工具
数据分析的数学和统计方法
数学和统计科学对数据挖掘管理和分析有很多贡献。事实上,大多数数据挖掘技术都是统计数据分析工具。有些方法和技术是众所周知的,而且非常有效。
描述性分析是对过去的洞察。这种统计技术的作用正如其名所示——“描述”。它查看数据,分析过去的事件和情况,以便了解如何接近未来。
它让我们从过去的行为中学习,并找出它们可能如何影响未来的表现。
回归分析允许建模一个因变量和一个或多个自变量之间的关系。在数据挖掘中,该技术用于预测给定特定数据集的值。例如,当考虑到其他变量时,回归可以用来预测产品的价格。
有很多不同类型的回归模型,如线性回归模型、多元回归模型、逻辑回归模型、岭回归模型、非线性回归模型、生活数据回归模型等等。
3.因子分析
因子分析是一种基于回归的数据分析技术,用于在一组变量中找到一个基础结构。
它需要寻找新的独立因素(变量)来描述原始因变量之间关系的模式和模型。
因子分析是一个非常流行的工具,用于研究复杂主题的变量关系,如心理量表和社会经济地位。
FA是实现有效聚类和分类的基本步骤。
离散分析虽然不是数据挖掘中常用的方法,但在数据挖掘中仍有一定的作用。离散度是一组数据被拉伸到的范围。它是一种描述一组数据的扩展程度的技术。
一般来说,离散有两种情况:一是表示事物之间的变化,二是表示平均值附近的变化。如果该值与平均值之间的差异显著,则离散度较高。否则,它就是低的。
判别分析是数据挖掘中最强大的分类技术之一。判别分析利用对不同组项目的变量测量值来划出区分这些组的点。
这些测量值用于对新项目进行分类。
该方法的典型应用实例包括:将信用卡应用程序划分为低风险和高风险类别、将新产品的客户划分为不同的群体、涉及酗酒者和非酗酒者的医学研究等。
你知道,在几乎每一个科学领域,测量都是随着时间的推移而执行的。这些查找将导致一组有组织的数据,称为时间序列。
时间序列的一个很好的例子是股票市场指数的日价值。
然后,这些信息用于创建和建模能够预测未来演进的预测。
方法基于人工智能、机器学习和启发式算法
这些现代方法以其扩展的能力和解决非传统任务的能力吸引了数据科学家的注意。此外,它们可以通过特殊的软件系统和工具轻松有效地实现和执行。
以下是一些常见的数据分析方法:
毫无疑问,这是最常用的新型和现代类型的数据分析方法之一。
人工神经网络(ANN),通常被称为“神经网络”,是对信息处理的大脑隐喻。
这些模型是受生物学启发的计算模型。它们由一组相互连接的人工神经元组成,并使用计算方法处理信息。
神经网络在数据挖掘中的应用非常广泛。它们对噪声数据具有较高的接受能力和较高的精度。详细研究了基于神经网络的数据挖掘。神经网络已被证明是非常有前途的系统,在许多预测和业务分类的应用。
这是数据挖掘和机器学习中另一种非常流行的现代分类算法。决策树是一个树形图,表示分类或回归模型。
它将数据集划分为越来越小的子数据集(包含具有相似值的实例),同时不断开发相关的决策树。这棵树的建立是为了显示如何以及为什么一个选择可能导致下一个选择,在树枝的帮助下。
使用决策树的好处包括:不需要领域知识;它们很容易理解;决策树的分类步骤非常简单和快速。
数据挖掘中的进化规划是一个共同的概念,它结合了使用进化算法的多种不同类型的数据分析。其中最流行的是:遗传算法、遗传编程和协同进化算法。
事实上,许多数据管理机构使用进化算法来处理一些世界上最大的大数据挑战。
应用模糊逻辑处理数据挖掘问题中的不确定性。模糊逻辑建模是一种基于概率的数据分析方法和技术。
这是一个相对较新的领域,但在从不同的数据集提取有价值的信息方面有很大的潜力。
模糊逻辑是一种创新的多值逻辑,其中变量的真值是介于0和1之间的实数。在这个术语中,真值可以介于完全真和完全假之间。
结论
数据分析方法的类型只是整个数据管理图景的一部分,还包括数据体系结构和建模、数据收集工具、仓库、数据安全性、数据质量度量和管理、数据映射和集成、业务智能等。
使用哪种类型的数据分析?没有一种单一的数据分析方法或技术可以被定义为数据挖掘的最佳技术。它们都有各自的角色、意义、优缺点。
方法的选择取决于特定的问题和您的数据集。数据可能是您最有价值的工具。因此,选择正确的数据分析方法可能是整个业务开发的关键。