当前位置 > CPDA数据分析师 > “数”业专攻 > 什么叫回归分析?回归分析法的步骤有哪些?

什么叫回归分析?回归分析法的步骤有哪些?

来源:数据分析师 CPDA | 时间:2017-03-10 | 作者:admin

什么是回归分析呢?它是基于相关原则的一种定量预测方法。什么是相关原则呢?就是判断事物发展的影响因素、例如,商场里某个商品卖的好不好,会受到很多因素的影响,比如,商品摆在什么位置、如何包装、价格高低、促销活动如何等等,都会影响商品的销量。

 

回归分析法模型

 

回归分析的基本概念

1.自变量与因变量

回归观察的是一个或几个因素的变化,是否影响到我们要研究的对象。如果影响,那这一个或几个因素就叫做自变量,而我们要研究的对象就叫做因变量。因此,自变量可以有一个,或者有几个,而因变量只有一个。例如,产品卖的好不好可能受多种因素的影响。如果我们要研究这些因素对产品销量的影响,那产品的销量就是因变量,而像包装、柜台拜访位置、促销活动等,这些都是自变量。

 

2.线性与非线性

如果是线性,那自变量和因变量就沿着一条直线方向变动,而体现在回归方程里,就是自变量X是一次的,没有其他的次方项、只要是线性,那么方程里只有X的一次项;否则,如果方程里还有X的其他次项,或者从图形上显示自变量和因变量是沿着曲线变动,那就是非线性的。

 

3.一元与多元

一元就是指只有一个自变量,因此,方程里只有一个X,而多元,则表示有多个自变量,方程里会有很多个X,如X1,X2,X3等。例如,如果我们只研究促销活动对产品销量的影响,自变量是促销活动这一个自变量,就表示是一元的。而如果我们要同时研究促销活动、包装、价格等等多个因素对产品销量的影响,那自变量就包括促销活动、包装、价格等,有很多,所以就是多元的。

 

4.含有虚拟变量的回归模型

许多变量是可以定量度量的,如商品价格、收入、产量等

但也有一些因素无法定量度量,如职业、性别对收入的影响、季节对某些产品销售的影响等。为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将他们“量化”。

 

这种“量化”通常是通过引入“虚拟变量”来完成的。根据这些因素的属性类别,构造只取“0”或“1”的人工变量,通常称为:虚拟变量,记为D

例如,反映文化程度的虚拟变量可取为

D={1,本科学历/0,非本科学历}

 

回归分析的基本步骤

1.重点考察一个特定的变量(因变量),而把其他变量(自变量)看做是影响这一变量的因素,并通过适当的数学模型将变量间的关系表达出来;

 

2.利用样本数据建立模型的估计方程

 

3.对模型进行显著性检验

 

4.通过一个或几个自变量的取值来估计或预测因变量的取值