当前位置 > CPDA数据分析师 > 数据分析行业资讯 > 数据科学,来自业界的诱惑

数据科学,来自业界的诱惑

来源:数据分析师 CPDA | 时间:2015-07-29 | 作者:admin

1

PhD holders with quantitative skills are landing posts at technology companies. 拥有数据量化分析能力的博士们正在寻求科技公司的职位。

伊莱·巴塞特(Eli Bressert)计划把自己的学术生涯都放在针对恒星形成的研究上。他在英国埃克塞特大学(University of Exeter)获得博士学位,又在澳洲悉尼附近完成了针对射电天文学的博士后研究。他发表论文的引用量正处在上升趋势,他收到的科研合作和学术会仪的邀约也越来越多。他实在没有理由离开天文学领域的研究。

但在2012年,学术就业市场的严峻形势让他有些紧张了。“我坐下来计算我的机会,”他回忆道,“还有没有机会找到一个好的研究机构,而且工作地点能让家人也满意的?”因为他已经为了他的博士后工作,带着妻子和一岁的儿子跨越了1万6千公里来到了澳洲,同一年,他和同事出版了一本关于科学编程的手册。同时他还被一家创业公司聘为学术顾问,这家公司立足于开发帮助合作者合著论文的软件。巴塞特喜欢创业公司的活力,因此当他听说在硅谷有支持科学家从事科技工作的助学金时,他毫不犹豫地申请并被接纳了。

他及家人再次搬家,这次搬到1万2千公里外的加利福尼亚州的帕罗奥图(Palo Alto)。现在他是旧金山一家时尚创业公司Stitch Fix的数据实验室主管,负责设计帮助顾客挑选衣服的预测算法。他说他很热爱这份评估计算方法的工作。因为相对于以往学术界的经历而言,这份工作提供了更多的知识自由(intellectual freedom)和创造性。

巴塞特并不是个特例,他们公司雇佣了20名博士学位拥有者,专业涵盖了从天文学、神经学到电子学等各类学科。巴赛特的经理埃里克·科尔森(Eric Colson)认为,博士们最大的价值在于他们严谨的思维。博士期间的训练意味着学习如何将问题形式化,验证想法并评估解决方案是否可行。尤其涉及到数据建模时,这些特质让博士比大多数人更具有怀疑精神。科尔森说,“如果首次尝试就特别完美,博士们的第一反应会是情况太好而难以让人信服。博士们有耐心和方法来将问题结构化,而这是MBA们所没有的。”在美国目前有大量年轻科学家离开学术泥沼而转向业界的数据科学岗位,Stitch Fix的博士们只是其中的一小部分。

Make the leap
实现飞跃

数学和计算机科学家是数据科学领域的主要表现形式,但是计算的理解性和沟通的技巧性比科学专业本身更重要。想要转换角色的青年学者们需要证明,他们可以从繁杂的数据中抽取出模式并且将该模式应用于商业目标环境。

有人在纽约和华盛顿特区开设了一门培训课程叫做“数据孵化器”(The Data Incubator),专门帮助研究生做从事数据科学工作的准备。数据孵化器的联合创始人迈克尔·李说:“需要特别记住的是,业界对于想法或见解不在意,他们在意的是具有可行性的分析。” 洞察力数据科学公司(Insight Data Science)在帕格阿尔托市(Palo Alto)也开设了一个类似的培训项目,其创立者杰克·克拉姆卡(Jake Klamka)说,学者们想抓住就业机会但却不知道业界的情况。合格的应征者可能会因为误用词语而被视为没什么本事,比如学术界喜欢用术语“研究”(study)但业界的行话是“实验”(experiment)或“A/B测试”(A/B test)。

2

学员在伦敦参加科学数据科学研讨会

克拉姆卡发现闯入业界是件难事。他从加拿大多伦多大学粒子物理学博士课程中退学了,从2010年起就开始在自己的厨房中开发技术工具。尽管他有专业技能,但是他缺乏业界的知识。“我已经拥有99.5%的技能了,”他说,“但我需要指导和引导。”历经了一年的挫折,随后他去了硅谷。在那里,他遇到了将他引导到正确轨道上的软件工程师和企业家。还有赖于来自于加州山景城的著名创业孵化器公司Y Combinator初创基金的部分支持,他终于创办了自己的公司——Noteleaf。

克拉姆卡知道有很多物理圈的朋友也对转向业界数据科学领域充满兴趣,但是依然在为了进入业界而挣扎,就像他曾经历的那样。同时,还有技术社区的朋友在抱怨他们已经提供了开放的职位但是没人够聪明来胜任。所以克拉姆卡创办了“洞察力数据科学公司”来为博士们提供面向业界数据科学的职业培训。目前为止,所有完成7周培训项目的人都获得了工作机会。

Box 1: Learn the ropes: Find the data-science course to suit you
学会诀窍:找到适合你的数据科学课程

很多计划转向业界的人会利用自己在研究所的时间来提升自己的技能并探寻自己的机会。旧金山Stitch Fix公司的数据实验室主管伊莱·巴塞特建议,学习更符合业界胃口的编程工具如Python和R语言。而要是需要提升软件技巧,可以参加诸如“Data Carpentry”或“Software Carpentry”(非营利性的workshop培训)等培训项目。这些培训一般只需要两天时间,在全世界的校园都可以参加。

格伦·王(Glenn Wong)目前是位于马萨诸塞州萨默维尔的网络安全公司Recorded Future的副总裁。当他还在马萨诸塞州的剑桥读哈佛大学的物理学博士时就参加了哈佛商学院的培训。这段经历随后帮助他通过了管理咨询公司的面试。

Joy Tharathorn Rimchala曾经是剑桥麻省理工学院合成生物学的博士后,现在是加利福尼亚山景城的财务软件公司Intuit的数据科学家。她曾经一直在犹豫是否放弃学术生涯,直到她开始旁听一门计算科学的课程才下定决心。“那时我意识到,数据科学很酷,至少跟我的博士学位一样酷。”她说道。

Rimchala和巴塞特都参加过加州帕洛阿尔托的洞察力数据科学公司的培训项目,并由此成功转型进入业界。(去年,一个平行培训项目在纽约推出;今年7月还会在波士顿再推出一个。)课程参与者们组成团队来开发数据驱动的Web应用程序,并与来自技术公司的数据科学家会面。这些课程还是免费的:成本由科技公司负担,包括支付雇员工资。

类似的尝试在伦敦也有,Science to Data Science公司为约85个学生提供5周的培训,每人支付360英镑(约合540美元)的食宿费用。经过一周半的课程学习,学生们分成小组与来自当地公司的导师一起针对公司提供的数据构建实用性工具。公司的联合创始人,天文学博士基姆·尼尔森(Kim Nilsson)说,大部分学员结束去年9月份的初创培训后都回到他们原来的实验室,但是如今75%的学员已经在业界从事数据科学工作了。

另外也有免费的选择,7个礼拜的数据孵化器课程,目前在纽约和华盛顿开课,2015年夏季将在旧金山开课。最后,12周的纽约数据科学研究院项目,将在今年落地,其成本为1万6美元,包括工具使用课程,如R、Hadoop和Python等。所有这些项目的申请量都超过了可提供的数量。

Job descriptions
工作描述

数据科学家的工作差异性很大。一些需要繁琐的“数据处理”(data munging),清洗数据并填补空缺,使数据集适宜于简单的数据分析。有些数据科学家的角色是数据应用顾问,由其他同事制作新的模型和方法。大公司如LinkedIn,谷歌和Facebook,它们拥有庞大的用户库和数据集,倾向于采用最精妙的数据建模技术。

格伦·王(Glenn Wong)是马萨诸塞州萨默维尔市“记录未来”公司(Recorded Future)的副总,他拥有物理学博士学位。公司业务专注于有效组织Web数据来帮助客户抵御网络攻击。王说,要成为数据科学家的人需要发散地想下自己的兴趣所在,及在哪里可以做自己感兴趣的事。“我的意思并不是‘这一小段DNA与那一小段DNA如何交互’,”王解释道,“‘我喜欢解决来自复杂二维世界的难题’,或者说‘我喜欢跟那些有疯狂想法且没有地位观念的人在一起’。”

艾米·海尼根选择将她的计算社会学博士课程暂时休学,转而加入加州旧金山的一家初创技术公司。公司业务是为早起创业者提供咨询和评估。“我选择读博士的原因在于想解决有趣的问题,而现在我们正在做的也真是如此。”她谈到她的工作时说。经过从学术圈出来的几年,现在也拥有了指导几家初创公司的经历,海尼根认为她在业界拥有更好的机会来构建想法并付诸实施,因为公司才可以与那些产品使用者实现真正的沟通。

但是,为了商业目标博士们不得不让自己适应,抛弃那些过于精确的(学术)要求。一旦数据模型可以奏效,学者可能专注于系统优化以改进精确性及极值量。“但是在业界,你最好说,‘我如何将其软件化?我如何确定这不会崩溃?’”海尼根说,”为了用户真实需求,你不得不有始有终地完成这些工作,而这些在学术圈是没必要花时间去做的。“

有些招聘经理担心,去完成一个逐渐精确模型的欲望可能会将学者引入到没有成果的泥沼中。约翰·贝克(John Baker),在马萨诸塞州的波士顿创建了一家名为“Datakin”的数据咨询公司。他举了一个例子,曾经有位天体物理学家被同事们称为“暗物质”,因为他将精力都用于追求完美的数据模型以至于从来没有完成过他的项目。

山景城的网络公司LinkedIn数据安全首席科学家戴维·弗里曼(David Freeman)说,有这种倾向的人在面试中很可能被淘汰。在被要求描述自己的成就时,最有希望的候选人应更关注于他曾实现的代码而不是他曾发表的论文。独立开发组件或新人培训是适应业界需求的另一个积极标志。Baker说,“你能分辨出谁其实是学术型的和谁真正有做项目的潜力。”

威尔·库克斯科(Will Cukierski)就是以这种方式获得关注的。他在新泽西州新不伦瑞克的罗格斯大学获得了他的博士学位。在那里他使用计算机识别癌症组织中显著的病理部分。但是到了晚上,他将时间用于参与流媒体供应商Netflix100万元美金的挑战竞赛:谁能设计出最好的网站电影推荐算法。虽然他没有赢得奖金,但是他发现了一个bug并继续利用业余时间在旧金山的数据科学公司Kaggle主办的类似竞赛中尝试。在2012年,公司高管接触了他——他们注意到了他提交的内容并认为他可以在他们的团队中占据一席之地。在拿到了博士学位之后一周,库克斯科开始以数据科学家的身份工作了。

对许多博士来说,成功的关键在于要找到一个产品或服务能吸引他们的公司。塞巴斯蒂安·古铁雷斯(Sebastian Gutierrez)是《工作中的数据科学家》一书的作者,他说,“你需要找到合适的人,他们知道自己真正关心的业务,并且对工作保有足够热情,还要能满足你相应的季度预算和目标。”

数据科学家的岗位开始出现在学术界(见 ‘Academic data drive’(学术数据驱动)),但许多人发现业界环境更具吸引力。“在业界我可以用20%的时间达到80%的目标,而不是相反,”珊妮·奥芬(Shani Offen)说。她曾经是纽约大学的神经科学研究教授,现在则是位于纽约的问答网站“About.com”的数据科学家。汤米·盖伊(Tommy Guy)是技术巨头微软公司在华盛顿州贝尔维尤(Bellevue)的数据科学家。他喜欢因给出正确见解而获得奖励的感觉,而不用在意结论是积极的还是消极的。例如,他可以采用数据分析得出结论,一种新提出的功能可能不会得到用户欢迎而力主公司放弃这一计划。这样,公司因为避免浪费大笔经费而给予他嘉奖。他说,与之相反,在学术圈几乎不会对消极结果给予奖励的。

Box 2: Academic data drive: Universities create data-science hubs
学术数据驱动:大学创造了数据科学中心

不只是业界,学术界也越来越需要数据科学家。去年一笔5千8百万美元的预算被批准用于弥补这方面的短缺。该预算支持在西雅图的华盛顿大学、加利福尼亚大学、加利福尼亚大学伯克利分校(UCB)以及纽约大学建立数据科学中心。这些大学的数据科学中心同时还获得了来自加利福尼亚帕洛阿尔托的戈登贝蒂摩尔基金会(Gordon and Betty Moore Foundation)【译者注:该基金会由“摩尔定律”提出者戈登·摩尔创立】和来自纽约的斯隆基金会(Alfred P. Sloan Foundation)【译者注:该基金会由通用集团原董事长及总裁艾尔弗雷德·P·斯隆创立】的共同资助。其中,摩尔基金会的赠款将用于资助研究人员开发和改进数据处理工具。

来自UCB新设立的数据科学伯克利研究院的助理研究员卡西克·拉姆(Karthik Ram)是第一个受资助者。他的职业成就在于他对于开源代码的贡献和为数据更好的重用性而做出的努力,而不是论文发表和引用量那种针对终身教职(tenure-track posts)的传统评价标准。

摩尔基金会经理克里斯·门采尔(Chris Mentzel)将拉姆及其同事描述为在一个正在获得动量的领域中的先驱者。“我们正在尝试为这样的研究者创建一个家园。”

弗里曼喜欢LinkedIn的工作节奏。他回忆起自己在加利福尼亚斯坦福大学做博士后时从事很前沿的研究。“我那时在做的工作即使可行,实际上在20年内也看不到结果。我那时就在寻找效果可以立竿见影的事情。”而没有什么比不断设置截止期限更让人集中精力的了。

{作者:Monya Baker}