当前位置 > CPDA数据分析师 > “数”业专攻 > 在数据科学领域最常见的问题

在数据科学领域最常见的问题

来源:数据分析师 CPDA | 时间:2019-09-09 | 作者:admin

在数据科学领域最常见的问题1 - 在数据科学领域最常见的问题

 

在大数据和机器学习的新时代,数据分析师已然成为了饱受欢迎的热门职位。能够利用大量数据改善服务客户、生产产品和运营方式的公司,将能够在这个经济环境中茁壮成长。

 

我们不可能忽视数据的重要性以及分析、整合和上下文化数据的能力。依靠数据科学家来满足这一需求,但全世界严重缺乏合格的候选人。

 

如果你想成为一名数据科学家,你需要准备好用你的知识给未来的雇主留下深刻的印象。除了解释为什么数据科学如此重要之外,您还需要证明您在技术上精通大数据概念、框架和应用程序。

 

在数据科学领域最常见的问题 - 在数据科学领域最常见的问题

 

以下是在数据科学领域最常见的20个问题,以及组织好的答案(仅供参考)。

 

  1. 特征向量是什么?

答:

特征向量是表示某个对象的数值特征的n维向量。在机器学习中,特征向量被用来以一种数学的、易于分析的方式表示对象的数字或符号特征,称为特征。

 

  1. 解释制作决策树的步骤。

答:

将整个数据集作为输入。

寻找一个最大化类分离的分割。分割是将数据分成两组的任何测试。

将分割应用于输入数据(分割步骤)。

对分割的数据重新应用步骤1到2。

当你达到停止的标准时就停止。

这一步叫做修剪。如果你劈得太远,就把树清理干净。

 

3.什么是根本原因分析?

答:

根源分析最初是用来分析工业事故的,但现在已广泛应用于其他领域。它是一种解决问题的技术,用于隔离故障或问题的根本原因。如果从问题-故障序列中推断出的因素能够避免最终不希望发生的事件再次发生,那么这个因素就称为根本原因。

 

  1. 什么是逻辑回归?

答:

逻辑回归也称为logit模型。它是一种通过预测变量的线性组合来预测二元结果的技术。

 

  1. 什么是推荐系统?

答:

推荐系统是信息过滤系统的一个子类,用于预测用户对产品的偏好或评级。

 

  1. 解释交叉验证。

答:

它是一种模型验证技术,用于评估统计分析的结果将如何推广到独立的数据集。它主要用于目标是预测的背景下,人们想要估计一个模型在实践中完成的准确程度。交叉验证的目的是在训练阶段(即验证数据集)对模型进行测试,以限制过度拟合等问题,并了解模型将如何推广到独立的数据集。

 

  1. 什么是协同过滤?

答:

大多数推荐系统使用的过滤过程,通过协作透视图、大量数据源和多个代理来查找模式和信息。

 

  1. 梯度下降法在任何时候都收敛到一个相似的点吗?

答:

不,它们没有,因为在某些情况下它们达到了局部极小值或局部最优值。您不会到达全局最优点。这由数据和启动条件控制。

 

  1. A/B测试的目的是什么?

答:

这是一个随机实验的统计假设检验,有两个变量a和B。a /B检验的目的是检测web页面的任何变化,以最大化或增加策略的结果。

 

  1. 线性模型的缺点是什么?

答:

线性模型的一些缺点是:

误差的线性假设。

它不能用于计数结果或二进制结果

它无法解决一些过度拟合的问题

 

  1. 大数定律是什么?

答:

这是一个定理,它描述了同一个实验做了很多次的结果。这个定理构成了频率式思维的基础。它表示样本均值,样本方差和样本标准差收敛于他们想要估计的。

 

  1. 什么是混淆变量?

答:

这些是统计模型中无关的变量,与因变量和自变量直接或反向相关。这一估计没有考虑到混杂因素。

 

  1. 解释星型模式。

答:

它是一个具有中心表的传统数据库模式。卫星表将ID映射到物理名称或描述,并可以使用ID字段连接到中心事实表;这些表称为查找表,在实时应用程序中非常有用,因为它们节省了大量内存。有时星型模式涉及多个层次的摘要以更快地恢复信息。

 

  1. 算法必须多久更新一次?

答:

你想要更新算法时:

您希望模型随着通过基础设施的数据流而发展

底层数据源正在更改

有一个非平稳性的情况

 

  1. 什么是特征值和特征向量?

答:

特征向量是用来理解线性变换的。在数据分析中,我们通常计算相关矩阵或协方差矩阵的特征向量。特征值是一个特定线性变换通过翻转、压缩或拉伸作用的方向。

 

  1. 为什么要重新采样?

答:

在下列情况下进行重采样:

通过使用可访问数据子集或从一组数据点随机抽取替换数据来估计样本统计量的准确性

在进行显著性检验时,替换数据点上的标签

使用随机子集验证模型(引导、交叉验证)

 

  1. 解释选择性偏见。

答:

选择偏差,一般来说,是一个有问题的情况下,误差是由一个非随机总体样本引入。

 

  1. 抽样过程中可能出现的偏差类型有哪些?

答:

选择性偏差

在报道的偏见

生存偏差

 

  1. 解释生存偏差。

答:

这是一种逻辑错误,即把重点放在那些支持在某些过程中生存的方面,而随意忽略那些由于缺乏突出性而没有生存下来的方面。这可能在许多不同的方法中导致错误的结论。

 

20.你如何向一个随机的森林工作?

答:

这种技术的基本原理是几个学习能力较差的学生结合起来就能成为一个学习能力较强的学生。所涉及的步骤包括

在引导的训练数据样本上构建几个决策树

在每棵树上,每次考虑分裂时,都会从所有pp预测器中选择一个随机的mm预测器样本作为分裂候选

经验法则:每次分裂时m=p√m=p

预测:按多数决定原则

 

对于数据科学家来说,这项工作并不容易,但它是有回报的,而且有很多可用的职位。一定要为面试的严谨性做好准备,并对数据科学的具体细节保持敏锐。