当前位置 > CPDA数据分析师 > “数”业专攻 > 你需要知道了解的数据科学

你需要知道了解的数据科学

来源：数据分析师 CPDA | 时间：2019-09-09 | 作者：admin

数据科学或数据驱动科学支持更好的决策、预测分析和模式发现。它可以:

通过问正确的问题找到问题的主要原因

对数据进行探索性研究

使用各种算法对数据建模

通过图表、仪表盘等交流和可视化结果。

比如航空：

实际上，数据科学已经在帮助航空业预测旅行，以减轻航空公司和乘客的不必要的麻烦。在数据科学的帮助下，航空公司可以在很多方面优化运营，包括:

计划航线，决定是直飞还是转机

建立预测分析模型来预测航班延误

根据客户的预订模式提供个性化的促销优惠

决定购买哪类飞机以获得更好的整体性能

在另一个例子中，假设你想为你的办公室买新家具。当你在网上寻找最好的选择和交易时，你应该在做决定之前回答一些关键的问题。

使用这个示例决策树，您可以将选择范围缩小到几个网站，最终做出更明智的最终决策。

商业智能和数据科学的区别

业务智能是用于分析业务数据/信息的策略和技术的组合。与数据科学一样，它可以提供业务操作的历史、当前和预测视图。然而，有一些关键的区别。

商业智能	数据科学
使用结构化数据	使用结构化和非结构化数据
分析性质 - 提供数据的历史报告	科学性 - 对数据进行深入的统计分析
使用基本统计数据，重点是可视化（仪表板，报告）	利用更复杂的统计和预测分析以及机器学习（ML）
将历史数据与当前数据进行比较以识别趋势	结合历史和当前数据来预测未来的绩效和结果

数据科学的先决条件

好奇心——要理解业务问题，首先要问正确的问题。问错问题是许多数据科学项目失败的原因

常识——要确定优先级和解决业务问题的新方法，您需要常识。即使你有一个不完整的数据集，你也需要有创造性地自己填补任何空白

沟通技巧——即使你的分析非常出色，你也需要能够有效地沟通你的发现;否则没人会知道

机器学习

机器学习是数据科学的支柱。除了基本的统计学知识外，数据科学家还需要对ML有扎实的掌握。

建模

数学模型使您能够基于您已经知道的数据进行快速计算和预测。建模也是ML的一部分，包括确定哪种算法最适合解决给定的问题以及如何训练这些模型。

统计数据

统计学是数据科学的核心。对统计学的扎实掌握可以帮助你获得更多的智慧，获得更有意义的结果。

编程

执行一个成功的数据科学项目需要一定程度的编程。最常见的编程语言是Python，而R. Python尤其受欢迎，因为它易于学习，并且支持用于数据科学和ML的多个库。

数据库

作为一个有能力的数据科学家，您需要了解数据库如何工作，如何管理它们，以及如何从数据库中提取数据。

为数据科学的职业生涯做准备?参加这个免费的数据科学实践测试，评估你的知识。

数据科学中使用的工具/技能

领域	技能	工具
数据分析	R，Python，统计	SAS，Jupyter，R Studio，MATLAB，Excel，RapidMiner
数据仓库	ETL，SQL，Hadoop，Apache Spark，	Informatica / Talend，AWS Redshift
数据可视化	R，Python库	Jupyter，Tableau，Cognos，RAW
机器学习	Python，代数，ML算法，统计学	Spark MLib，Mahout，Azure ML工作室

数据科学家是做什么的?

数据科学家分析业务数据以提取有意义的见解。换句话说，数据科学家通过一系列步骤来解决业务问题，包括:

问正确的问题来理解问题

从多个源(企业数据、公共数据等)收集数据

处理原始数据并将其转换为适合分析的格式

将数据输入分析系统- ML算法或统计模型

准备结果和见解与适当的涉众分享

必须知道机器学习算法

数据科学家使用的最基本和最基本的ML算法包括:

回归

回归是一种基于监督学习技术的ML算法。回归的输出是一个实值或连续值。例如，预测房间的温度。

聚类

聚类是一种基于无监督学习技术的ML算法。它在一组未标记的数据点上工作，并将每个数据点分组到一个集群中。

决策树

决策树是一种主要用于分类的监督学习方法。该算法根据特定的参数对各种输入进行分类。决策树最显著的优点是易于理解，并且清楚地显示了分类的原因。

支持向量机

支持向量机(svm)也是一种主要用于分类的监督学习方法。支持向量机可以进行线性和非线性分类。

朴素贝叶斯

朴素贝叶斯是一种基于统计概率的分类方法，最适用于二元和多类分类问题。

数据科学项目的生命周期

概念研究

数据科学项目的第一阶段是概念研究。这一步的目标是通过对业务模型的研究来理解问题。

例如，假设你正试图预测一颗1.35克拉的钻石的价格。在这种情况下，您需要了解行业中使用的术语和业务问题，然后收集足够的行业相关数据。

数据准备

由于原始数据可能不可用，因此数据准备是数据科学生命周期中最重要的方面。数据科学家必须首先检查数据，以确定任何空白或没有添加任何值的数据。

在这个过程中，你必须经过几个步骤，包括:

数据集成——解决数据集中的任何冲突并消除冗余

数据转换——使用ETL(提取、转换、加载)方法对数据进行规范化、转换和聚合

减少数据——使用各种策略，在不影响质量或结果的情况下减少数据的大小

数据清理——通过填充缺失的值和平滑有噪声的数据来纠正不一致的数据

模型规划

清理完数据后，必须选择合适的模型。你想要的模型必须与问题的本质相匹配——它是回归问题，还是分类问题?此步骤还涉及探索性数据分析(EDA)，以便对数据进行更深入的分析，并了解变量之间的关系。EDA使用的一些技术有直方图、箱形图、趋势分析等。

使用这些技术，我们可以很快发现克拉和钻石价格之间的关系是线性的。

然后，将信息分解为训练和测试数据——训练数据来训练模型，测试数据来验证模型。如果测试不准确，您将需要对流程中的模型进行重新培训，或者使用另一个模型。如果它是有效的，您可以将其投入生产。

模型规划使用的各种工具包括:

R - R可用于常规统计分析或任务学习分析，包括用于更详细分析的可视化

Python提供了一个丰富的库来执行数据分析和机器学习

Matlab是一个流行的工具，也是最容易学习的工具之一

SAS是一个功能强大的专有工具，拥有执行完整统计分析所需的所有组件

模型建立

生命周期的下一步是构建模型。使用各种分析工具和技术，您可以操纵数据，以“发现”有用的信息。

在这种情况下，我们想要预测一颗1.35克拉的钻石的价格。利用现有的定价数据，我们可以将其插入线性回归模型，预测一颗1.35克拉的钻石的价格。

线性回归描述了两个变量- X和Y之间的关系。在绘制回归线后，我们可以用公式预测输入X的Y值:

Y = mX + c

在那里,

m =直线的斜率

c = y轴截距

如果您能够验证模型是否正常工作，那么您就可以进入下一个级别的生产。如果没有，则需要使用更多的数据对模型进行重新培训，或者使用更新的模型或算法，然后重复这个过程。您可以使用来自panda、Matplotlib或NumPy等库的Python包快速构建模型。

沟通

下一步是获得研究的关键发现，并将其传达给利益相关者。一个好的科学家应该能够把他的发现传达给有商业头脑的听众，包括解决问题的步骤细节。

实施

一旦所有各方都接受了调查结果，他们就开始行动。在此阶段，涉众还将获得最终报告、代码和技术文档。

上一篇： “女孩子学什么数据分析”，“呵呵”！

下一篇：在数据科学领域常见的问题

技术支持：北京中盈达科技有限责任公司

京ICP备15052412号-4 京公网安备 11010502034401号

联系电话：400-050-6600 联系方式：北京市朝阳区朝外SOHO C座9层

数据分析师培训 | 北京广州上海深圳佛山贵州贵阳武汉郑州苏州杭州合肥济南西安石家庄太原长春沈阳青岛哈尔滨厦门福州大连呼和浩特长沙重庆海口沈阳南昌南宁乌鲁木齐天津银川南京昆明东莞宁波成都南阳洛阳临沂烟台兰州

你需要知道了解的数据科学

数据分析师认证考试

CPDA数据分析师考试

CDA数据分析员考试

数据分析师（CPDA）开课信息