当前位置 > CPDA数据分析师 > “数”业专攻 > 你需要知道了解的数据科学

你需要知道了解的数据科学

来源:数据分析师 CPDA | 时间:2019-09-09 | 作者:admin

数据科学或数据驱动科学支持更好的决策、预测分析和模式发现。它可以:

通过问正确的问题找到问题的主要原因

对数据进行探索性研究

使用各种算法对数据建模

通过图表、仪表盘等交流和可视化结果。

比如航空:

实际上,数据科学已经在帮助航空业预测旅行,以减轻航空公司和乘客的不必要的麻烦。在数据科学的帮助下,航空公司可以在很多方面优化运营,包括:

计划航线,决定是直飞还是转机

建立预测分析模型来预测航班延误

根据客户的预订模式提供个性化的促销优惠

决定购买哪类飞机以获得更好的整体性能

 

在另一个例子中,假设你想为你的办公室买新家具。当你在网上寻找最好的选择和交易时,你应该在做决定之前回答一些关键的问题。

 

你需要知道了解的数据科学 - 你需要知道了解的数据科学

 

使用这个示例决策树,您可以将选择范围缩小到几个网站,最终做出更明智的最终决策。

商业智能和数据科学的区别

业务智能是用于分析业务数据/信息的策略和技术的组合。与数据科学一样,它可以提供业务操作的历史、当前和预测视图。然而,有一些关键的区别。

 

商业智能 数据科学
使用结构化数据 使用结构化和非结构化数据
分析性质 - 提供数据的历史报告 科学性 - 对数据进行深入的统计分析
使用基本统计数据,重点是可视化(仪表板,报告) 利用更复杂的统计和预测分析以及机器学习(ML)
将历史数据与当前数据进行比较以识别趋势 结合历史和当前数据来预测未来的绩效和结果

 

数据科学的先决条件

好奇心——要理解业务问题,首先要问正确的问题。问错问题是许多数据科学项目失败的原因

 

常识——要确定优先级和解决业务问题的新方法,您需要常识。即使你有一个不完整的数据集,你也需要有创造性地自己填补任何空白

 

沟通技巧——即使你的分析非常出色,你也需要能够有效地沟通你的发现;否则没人会知道

 

机器学习

机器学习是数据科学的支柱。除了基本的统计学知识外,数据科学家还需要对ML有扎实的掌握。

 

建模

数学模型使您能够基于您已经知道的数据进行快速计算和预测。建模也是ML的一部分,包括确定哪种算法最适合解决给定的问题以及如何训练这些模型。

 

统计数据

统计学是数据科学的核心。对统计学的扎实掌握可以帮助你获得更多的智慧,获得更有意义的结果。

 

编程

执行一个成功的数据科学项目需要一定程度的编程。最常见的编程语言是Python,而R. Python尤其受欢迎,因为它易于学习,并且支持用于数据科学和ML的多个库。

 

数据库

作为一个有能力的数据科学家,您需要了解数据库如何工作,如何管理它们,以及如何从数据库中提取数据。

 

为数据科学的职业生涯做准备?参加这个免费的数据科学实践测试,评估你的知识。

 

数据科学中使用的工具/技能

领域 技能 工具
数据分析 R,Python,统计 SAS,Jupyter,R Studio,MATLAB,Excel,RapidMiner
数据仓库 ETL,SQL,Hadoop,Apache Spark, Informatica / Talend,AWS Redshift
数据可视化 R,Python库 Jupyter,Tableau,Cognos,RAW
机器学习 Python,代数,ML算法,统计学 Spark MLib,Mahout,Azure ML工作室

 

数据科学家是做什么的?

数据科学家分析业务数据以提取有意义的见解。换句话说,数据科学家通过一系列步骤来解决业务问题,包括:

问正确的问题来理解问题

从多个源(企业数据、公共数据等)收集数据

处理原始数据并将其转换为适合分析的格式

将数据输入分析系统- ML算法或统计模型

准备结果和见解与适当的涉众分享

必须知道机器学习算法

 

数据科学家使用的最基本和最基本的ML算法包括:

回归

回归是一种基于监督学习技术的ML算法。回归的输出是一个实值或连续值。例如,预测房间的温度。

 

聚类

聚类是一种基于无监督学习技术的ML算法。它在一组未标记的数据点上工作,并将每个数据点分组到一个集群中。

 

决策树

决策树是一种主要用于分类的监督学习方法。该算法根据特定的参数对各种输入进行分类。决策树最显著的优点是易于理解,并且清楚地显示了分类的原因。

 

支持向量机

支持向量机(svm)也是一种主要用于分类的监督学习方法。支持向量机可以进行线性和非线性分类。

 

朴素贝叶斯

朴素贝叶斯是一种基于统计概率的分类方法,最适用于二元和多类分类问题。

 

数据科学项目的生命周期

 

概念研究

数据科学项目的第一阶段是概念研究。这一步的目标是通过对业务模型的研究来理解问题。

 

例如,假设你正试图预测一颗1.35克拉的钻石的价格。在这种情况下,您需要了解行业中使用的术语和业务问题,然后收集足够的行业相关数据。

 

数据准备

由于原始数据可能不可用,因此数据准备是数据科学生命周期中最重要的方面。数据科学家必须首先检查数据,以确定任何空白或没有添加任何值的数据。

 

在这个过程中,你必须经过几个步骤,包括:

数据集成——解决数据集中的任何冲突并消除冗余

数据转换——使用ETL(提取、转换、加载)方法对数据进行规范化、转换和聚合

减少数据——使用各种策略,在不影响质量或结果的情况下减少数据的大小

数据清理——通过填充缺失的值和平滑有噪声的数据来纠正不一致的数据

 

模型规划

清理完数据后,必须选择合适的模型。你想要的模型必须与问题的本质相匹配——它是回归问题,还是分类问题?此步骤还涉及探索性数据分析(EDA),以便对数据进行更深入的分析,并了解变量之间的关系。EDA使用的一些技术有直方图、箱形图、趋势分析等。

 

你需要知道了解的数据科学1 - 你需要知道了解的数据科学

 

使用这些技术,我们可以很快发现克拉和钻石价格之间的关系是线性的。

 

然后,将信息分解为训练和测试数据——训练数据来训练模型,测试数据来验证模型。如果测试不准确,您将需要对流程中的模型进行重新培训,或者使用另一个模型。如果它是有效的,您可以将其投入生产。

 

模型规划使用的各种工具包括:

R - R可用于常规统计分析或任务学习分析,包括用于更详细分析的可视化

Python提供了一个丰富的库来执行数据分析和机器学习

Matlab是一个流行的工具,也是最容易学习的工具之一

SAS是一个功能强大的专有工具,拥有执行完整统计分析所需的所有组件

 

模型建立

生命周期的下一步是构建模型。使用各种分析工具和技术,您可以操纵数据,以“发现”有用的信息。

 

在这种情况下,我们想要预测一颗1.35克拉的钻石的价格。利用现有的定价数据,我们可以将其插入线性回归模型,预测一颗1.35克拉的钻石的价格。

 

你需要知道了解的数据科学2 - 你需要知道了解的数据科学

 

线性回归描述了两个变量- X和Y之间的关系。在绘制回归线后,我们可以用公式预测输入X的Y值:

Y = mX + c

 

在那里,

m =直线的斜率

c = y轴截距

 

如果您能够验证模型是否正常工作,那么您就可以进入下一个级别的生产。如果没有,则需要使用更多的数据对模型进行重新培训,或者使用更新的模型或算法,然后重复这个过程。您可以使用来自panda、Matplotlib或NumPy等库的Python包快速构建模型。

 

沟通

下一步是获得研究的关键发现,并将其传达给利益相关者。一个好的科学家应该能够把他的发现传达给有商业头脑的听众,包括解决问题的步骤细节。

 

实施

一旦所有各方都接受了调查结果,他们就开始行动。在此阶段,涉众还将获得最终报告、代码和技术文档。