来源:数据分析师 CPDA | 时间:2019-09-09 | 作者:admin
数据科学或数据驱动科学支持更好的决策、预测分析和模式发现。它可以:
通过问正确的问题找到问题的主要原因
对数据进行探索性研究
使用各种算法对数据建模
通过图表、仪表盘等交流和可视化结果。
比如航空:
实际上,数据科学已经在帮助航空业预测旅行,以减轻航空公司和乘客的不必要的麻烦。在数据科学的帮助下,航空公司可以在很多方面优化运营,包括:
计划航线,决定是直飞还是转机
建立预测分析模型来预测航班延误
根据客户的预订模式提供个性化的促销优惠
决定购买哪类飞机以获得更好的整体性能
在另一个例子中,假设你想为你的办公室买新家具。当你在网上寻找最好的选择和交易时,你应该在做决定之前回答一些关键的问题。
使用这个示例决策树,您可以将选择范围缩小到几个网站,最终做出更明智的最终决策。
商业智能和数据科学的区别
业务智能是用于分析业务数据/信息的策略和技术的组合。与数据科学一样,它可以提供业务操作的历史、当前和预测视图。然而,有一些关键的区别。
商业智能 | 数据科学 |
使用结构化数据 | 使用结构化和非结构化数据 |
分析性质 - 提供数据的历史报告 | 科学性 - 对数据进行深入的统计分析 |
使用基本统计数据,重点是可视化(仪表板,报告) | 利用更复杂的统计和预测分析以及机器学习(ML) |
将历史数据与当前数据进行比较以识别趋势 | 结合历史和当前数据来预测未来的绩效和结果 |
数据科学的先决条件
好奇心——要理解业务问题,首先要问正确的问题。问错问题是许多数据科学项目失败的原因
常识——要确定优先级和解决业务问题的新方法,您需要常识。即使你有一个不完整的数据集,你也需要有创造性地自己填补任何空白
沟通技巧——即使你的分析非常出色,你也需要能够有效地沟通你的发现;否则没人会知道
机器学习
机器学习是数据科学的支柱。除了基本的统计学知识外,数据科学家还需要对ML有扎实的掌握。
建模
数学模型使您能够基于您已经知道的数据进行快速计算和预测。建模也是ML的一部分,包括确定哪种算法最适合解决给定的问题以及如何训练这些模型。
统计数据
统计学是数据科学的核心。对统计学的扎实掌握可以帮助你获得更多的智慧,获得更有意义的结果。
编程
执行一个成功的数据科学项目需要一定程度的编程。最常见的编程语言是Python,而R. Python尤其受欢迎,因为它易于学习,并且支持用于数据科学和ML的多个库。
数据库
作为一个有能力的数据科学家,您需要了解数据库如何工作,如何管理它们,以及如何从数据库中提取数据。
为数据科学的职业生涯做准备?参加这个免费的数据科学实践测试,评估你的知识。
数据科学中使用的工具/技能
领域 | 技能 | 工具 |
数据分析 | R,Python,统计 | SAS,Jupyter,R Studio,MATLAB,Excel,RapidMiner |
数据仓库 | ETL,SQL,Hadoop,Apache Spark, | Informatica / Talend,AWS Redshift |
数据可视化 | R,Python库 | Jupyter,Tableau,Cognos,RAW |
机器学习 | Python,代数,ML算法,统计学 | Spark MLib,Mahout,Azure ML工作室 |
数据科学家是做什么的?
数据科学家分析业务数据以提取有意义的见解。换句话说,数据科学家通过一系列步骤来解决业务问题,包括:
问正确的问题来理解问题
从多个源(企业数据、公共数据等)收集数据
处理原始数据并将其转换为适合分析的格式
将数据输入分析系统- ML算法或统计模型
准备结果和见解与适当的涉众分享
必须知道机器学习算法
数据科学家使用的最基本和最基本的ML算法包括:
回归
回归是一种基于监督学习技术的ML算法。回归的输出是一个实值或连续值。例如,预测房间的温度。
聚类
聚类是一种基于无监督学习技术的ML算法。它在一组未标记的数据点上工作,并将每个数据点分组到一个集群中。
决策树
决策树是一种主要用于分类的监督学习方法。该算法根据特定的参数对各种输入进行分类。决策树最显著的优点是易于理解,并且清楚地显示了分类的原因。
支持向量机
支持向量机(svm)也是一种主要用于分类的监督学习方法。支持向量机可以进行线性和非线性分类。
朴素贝叶斯
朴素贝叶斯是一种基于统计概率的分类方法,最适用于二元和多类分类问题。
数据科学项目的生命周期
概念研究
数据科学项目的第一阶段是概念研究。这一步的目标是通过对业务模型的研究来理解问题。
例如,假设你正试图预测一颗1.35克拉的钻石的价格。在这种情况下,您需要了解行业中使用的术语和业务问题,然后收集足够的行业相关数据。
数据准备
由于原始数据可能不可用,因此数据准备是数据科学生命周期中最重要的方面。数据科学家必须首先检查数据,以确定任何空白或没有添加任何值的数据。
在这个过程中,你必须经过几个步骤,包括:
数据集成——解决数据集中的任何冲突并消除冗余
数据转换——使用ETL(提取、转换、加载)方法对数据进行规范化、转换和聚合
减少数据——使用各种策略,在不影响质量或结果的情况下减少数据的大小
数据清理——通过填充缺失的值和平滑有噪声的数据来纠正不一致的数据
模型规划
清理完数据后,必须选择合适的模型。你想要的模型必须与问题的本质相匹配——它是回归问题,还是分类问题?此步骤还涉及探索性数据分析(EDA),以便对数据进行更深入的分析,并了解变量之间的关系。EDA使用的一些技术有直方图、箱形图、趋势分析等。
使用这些技术,我们可以很快发现克拉和钻石价格之间的关系是线性的。
然后,将信息分解为训练和测试数据——训练数据来训练模型,测试数据来验证模型。如果测试不准确,您将需要对流程中的模型进行重新培训,或者使用另一个模型。如果它是有效的,您可以将其投入生产。
模型规划使用的各种工具包括:
R - R可用于常规统计分析或任务学习分析,包括用于更详细分析的可视化
Python提供了一个丰富的库来执行数据分析和机器学习
Matlab是一个流行的工具,也是最容易学习的工具之一
SAS是一个功能强大的专有工具,拥有执行完整统计分析所需的所有组件
模型建立
生命周期的下一步是构建模型。使用各种分析工具和技术,您可以操纵数据,以“发现”有用的信息。
在这种情况下,我们想要预测一颗1.35克拉的钻石的价格。利用现有的定价数据,我们可以将其插入线性回归模型,预测一颗1.35克拉的钻石的价格。
线性回归描述了两个变量- X和Y之间的关系。在绘制回归线后,我们可以用公式预测输入X的Y值:
Y = mX + c
在那里,
m =直线的斜率
c = y轴截距
如果您能够验证模型是否正常工作,那么您就可以进入下一个级别的生产。如果没有,则需要使用更多的数据对模型进行重新培训,或者使用更新的模型或算法,然后重复这个过程。您可以使用来自panda、Matplotlib或NumPy等库的Python包快速构建模型。
沟通
下一步是获得研究的关键发现,并将其传达给利益相关者。一个好的科学家应该能够把他的发现传达给有商业头脑的听众,包括解决问题的步骤细节。
实施
一旦所有各方都接受了调查结果,他们就开始行动。在此阶段,涉众还将获得最终报告、代码和技术文档。