当前位置 > CPDA数据分析师 > “数”业专攻 > 使用统计算法在Kaggle数据科学竞赛的成功

使用统计算法在Kaggle数据科学竞赛的成功

来源:数据分析师 CPDA | 时间:2015-12-08 | 作者:admin

34614fde83b5758827bd4389ea6710b4

最近,数学建模平台Kaggle举办了一个大数据联合竞赛来预测股票价格的短期变化。 联合举办的另一个平台BattleFin——也是致力于众包投资分析人才的发现和培养。参赛选手的新闻数据和情绪数据由RavenPack公司提供,然后要求使用这些数据来构建模型,进而预测价格变化。运用这些模型和预测数据,交易员和投资者在做投资决策的时候将用获得的信息来改进风险预警,进行投资。

   Steve Donaho博士是大数据联合竞赛的赢家,其他三个获胜者都是kaggle请来的。 事实上,Donaho博士在Kaggle比赛中的出色表现为其赢得了一个在250987名选手中靠前的名次。 在其中一个时点上,Donaho在整个Kaggle平台选手中是排名第一的。 这次成功充分说明了Donaho博士在数据科学方面的创造力,聪明和灵敏性。在统计视图网站的独家采访中,Donaho博士讨论了他在数据科学方面的兴趣和Kaggle比赛的成功。

1通过Kaggle比赛,你认为最有用的统计机器学习算法是什么?对于你自己而言,通过使用这些特定的方法,最大的收获是什么?

在过去的几年里,我发现GBM算法(广义boost回归模型)在R软件中是非常有用的,广泛适用于各种不同问题。 我使用GBM算法的第二个用处是完成了好事达保险公司的一个购买预测比赛,第三个用到的地方是在德勤保险客户流失预测的比赛中。之前,我开始使用XGBoost算法,它在本质上是类似于GBM算法的,但是计算要更快一些,而且对功能进行了一定的改进。而最近,我也被数字运营商Criteo、Tradeshift、Avazu举办的在线学习算法比赛所吸引。对于量很大的数据,在线学习技术能迅速给出不错的结果,并且不用使用很多的内存。

2.当你参加Kaggle比赛的时候,你采用什么标准方法?

我通常在比赛的开始花相当多的时间只是筛选数据,并且在我应用任何学习算法之前深入了解它。 有时这会给我创造一个很好的竞争优势——例如在好事达的比赛中,我发现某些组合的产品永远不会发生在美国各州。 排除这些组合,给我和我的伙伴节省了很多时间,形成了一个很大的竞争优势。另外在开始阶段,我会先试试一些简单的方法,我称它为“改善基线”:我先选择一个简单的想法,然后调整不同几个方面,来看我可以节省多少资源。 我做这些有几个原因:1)有时我发现一些相对简单的解决方案,执行效果很好(复杂的不一定是更好的);2)在实践中我发现客户喜欢简单的解决方案,这样他们能够把握掌控它;3)如果一个解决方案是做得很好,我想了解是什么驱动它成功,对于简单的模型算法这是很容易发现的。如果你直接从复杂的解决方案开始,很难知道是什么驱使着成功,并且不知道这样的复杂性是否有必要。

3。 是什么启发你开始参加Kaggle比赛吗?

我第一次听说Kaggle是在2011年一篇《华尔街日报》文章中。 数据科学比赛听起来很有趣。 在我的正常工作状态下有一周的休息时间,所以我参加了比赛,而距比赛结束也仅剩下一周的时间。 我用一个假名BreakfastPirate来签约,因为我认为我应该拿不到好的名次。比赛结束的时候,我发现在第一次比赛竟然得了第十名,而比赛过程中的状态让我感觉很棒,使我沉浸于其中。

也许有一部分读者的真正激情在于分析——在这种情况下,这些人应该被告知:数学,计算机等等只是用来帮助他们分析的支撑技能和工具。

4。 你为什么参加Kaggle比赛 ? 从中你获得了什么呢?

首先,它很有趣! 我是一个完完全全的数字爱好者。 我热衷于把我的全身心投入到一组新被设定的数据中,不断的挖掘它、分析它。对于我们了解行业也是很有意思的,在工作之前,我并没有了解过零售销售、航班到达时间,非洲土壤成分,流感预测,点击率预测等等方面。第二,它迫使我去学习新技术和新算法。 我经常筛选获胜者发布的解决方案,我学习最聪明的、新的方法。Kaggle在过去的一年中,无疑是最具有竞争力的比赛。 如果我看到选手赢得比赛用的是我之前并没有使用过的算法,我就要强迫我自己学习这种算法,以保持竞争力。这就是我开始使用XGBoost算法的原因。 第三,它是数据科学家们分享想法的一个社区。 是的,它是一个比赛,但在留言板上我们还可以分享很多的想法,这就变得相当的有趣了。

5。 什么是你进入数据科学领域的初衷?

当我还在高中时,我得到的唯一职业建议是,“你擅长数学,你应该成为一个工程师。 “所以我去大学学习,让自己成为一个工程师。 我知道我喜欢电脑所以我主修计算机和电子工程。 当我攻读学士学位的时候,我发现我对软件比硬件更感兴趣。 所以我继续努力,攻读了计算机科学硕士学位和博士学位。当我马上要完成博士学位的时候,我意识到,“我真的不喜欢电脑,正如我不喜欢身边所有的同学一样。 我真正想做的是分析数据,而电脑只是在我追逐数据分析梦想过程中的一个工具。”我花了这么多年和完成这么多学位,才明白我的能力不是数学。 我真正的能力是有良好的分析技能,并且我喜欢分析事物。不幸的是,在我高中的时候,分析能力不是很容易被定义,所以没有人能够说,“你有良好的分析技能,对于喜欢分析的人们这有一系列的职业道路。”但愿如今学校在知人识才和超越方面做得更好。“你擅长数学。你应该成为一个工程师。 “但是以防万一,也许有读者真正的激情在于分析——在这种情况下,这些人应该被告知:数学,计算机等等只是用来帮助他们分析的支撑技能和工具。他们需要的不是结果本身,而是明白如何达到目的。

更多关于Steve Donaho的资料: Steve Donaho博士有20年关于海量数据的架构解决方案经验。 他已经在众多领域的Kaggle比赛中保持了前十的地位,这些类型包括股票市场情绪分析、保险、名称解析,零售销售预测,医药销售预测,和航班到达时间预测。在开始他的Kaggle分析之旅之前,他是Mantas公司的分析主管(现在是Oracle金融服务公司的一部分),为金融服务行业提供商业智能。 在Mantas公司的时候,他是一个发明家,也是一个先驱者,创造了四个关于分析方法的专利。 他的关于检测欺诈和内幕交易的算法已经出版了,并在多个数据库知识发现(KDD)会议中提出并讨论。他专业知识的领域包括欺诈检测、洗钱检测、金融市场、银行和经纪、医疗保健、电信和客户分析