当前位置 > CPDA数据分析师 > “数”业专攻 > Datahoop实战教学|巧用Kmeans和简单指数平滑算法

Datahoop实战教学|巧用Kmeans和简单指数平滑算法

来源:数据分析师 CPDA | 时间:2019-06-19 | 作者:admin

微信图片 20190619172033 - Datahoop实战教学|巧用Kmeans和简单指数平滑算法

 

算法应用教学第一课

 

当下,数据分析应用已成为大数据发展的核心,缺乏分析支持的数据是没有商业价值的。商业环境的发展日新月异,只有用最精准的算法做最专业分析,才能有效帮助企业作出精准决策,实现快速发展。

 

Datahoop平台是中国数据分析行业协会推荐的数据分析专业平台。目前平台上入驻的各行业的专业数据分析师用户已达5万人以上。随着平台对社会各界的开放,越来越多的高校和国内外大数据算法大咖入驻到平台,持续贡献优质的数据分析算法。

 

为了让广大用户更好的学习Datahoop平台的数据分析算法应用技巧,Datahoop平台推出了包括大量的算法讲解和必要的应用案例的“算法应用系列教学”课程,供大家参考学习。

 

简单指数平滑算法

 

指数平滑算法实际上是一种特殊的加权移动平均法,简称SEC,它是利用指数方式,使用来预测的近期值的权值较大,而远期值的权值较小,从而计算出更接近当前值的预期,适用于有趋势和季节性的模型。简单指数平滑在股票价格预测,企业销售额预测中应用非常广泛。

 

其特点是:

第一,指数平滑法进一步加强了观察期近期观察值对预测值的作用,对不同时间的观察值所赋予的权数不等,从而加大了近期观察值的权数,使预测值能够迅速反映市场实际的变化。权数之间按等比级数减少,此级数之首项为平滑常数a,公比为(1- a)。

 

第二,指数平滑法对于观察值所赋予的权数有伸缩性,可以取不同的a 值以改变权数的变化速率。如a取小值,则权数变化较迅速,观察值的新近变化趋势较能迅速反映于指数移动平均值中。因此,运用指数平滑法,可以选择不同的a 值来调节时间序列观察值的均匀程度(即趋势变化的平稳程度)。

 

KMeans聚类算法

 

k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其分析步骤是随机选取k个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类,每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。

 

KMeans聚类算法在对客户进行自动分类和运动员水平分类等方面应用广泛。

 

其特点是:

聚类与分类通常是相对的,而区别是做聚类时没有类别的标签,聚类是一种寻找数据之间内在结构的基数,也就是说在做数据分析时将数据分成多少类我们是不知道的,但是KMeans聚类算法却需要事先确定分多少类,那以通俗的方式来说,可以用“走着瞧”来表述,所以合理确定种子数(简称K值)和初始类的中心点对计算效果好坏有很大的影响。

 

作为新开课程,希望各位能够积极反馈意见,当然,您有特定想要学习的算法也可以留言给我们,我们一定尽全力响应您要学习的决心哟~