机器之心报导
参与:李泽南、郑丽慧
那些在 Kaggle 上取得金牌的数据竞赛大神们都找到了好工作吗?实践或许没这么夸姣。
关于初入机器学习范畴的人来说,你必定现已从学长口中、博客文章中、社区帖子里听说过 Kaggle 的台甫。除了许多竞赛以外,Kaggle 上也有许多揭露的数据集。
有许多 Kaggle 入门教程都会说到:这是一个在业界具有很高认可度的竞赛渠道,在你的简历中附上 Kaggle 成果,会对找工作很有协助。
最近,这一问题在 Reddit 机器学习板块上引发了火热评论。
发帖者「u / AlexSnakeKing」翻来覆去:在咱们眼中,Kaggle 奖项的分量足以让你「走上人生巅峰」。咱们常常可以看到各路 Kaggle 大神的传奇阅历,他们有的十分年青,有的身经百战。而故事的结局一般会是:他们取得了谷歌、Facebook 这样科技巨子的喜爱。
但他也调查了自己在博客上重视的许多 Kaggle 获奖者,还有一些常常在 linkedIn 上联络的获奖者。获奖的几个月后,「朝为田舍郎,暮登皇帝堂」的故事没有发生,这些获奖者并未呈现在 谷歌、FaceBook 的工作室里,乃至还有一部分人一直处于自由工作者的状况……
这正是令「u/ AlexSnakeKing」利诱的当地,Kaggle 上的好成果真的会对求职有协助吗?
直白点说,在 Kaggle 上得奖能不能帮咱们拿到 Google、FB、Open AI 这些大厂的 offer?
机器学习界的「耶路撒冷」
作为最著名的数据科学竞赛渠道,Kaggle 成立于 2010 年,并于 2017 年被谷歌收入旗下。迄今为止,这一渠道上现已举行了 356 场各种类型的数据竞赛。
许多公司、政府研究机构都会把自己的数据放上来,开放给全球范围内的参赛者,让他们协助自己建模型。为了进步参赛积极性,他们也会设置必定的奖金,用来奖赏模型精度最高的几个部队,有些竞赛的奖金乃至可以高达百万美元。
于是乎,Kaggle 源源不断地招引了不计其数的开发者来参与竞赛,许多数据科学家在 Kaggle 上投入了许多的时刻和精力。在比如机场安全、卫星数据剖析这类的使命上,不乏数十年阅历的优异团队参与竞赛。
在机器学习爱好者们心中,Kaggle 是一个灯塔般的存在。
Kaggle 的总榜单上现在现已呈现了 162 名大师级(Grandmaster)选手。而在一切竞赛中,取得金牌的人数大约占总人数的 2.5%。可是,数量多并不意味着拿奖牌的几率很高:从趋势上看,跟着参与人数的逐步增多,获取 Kaggle 奖牌的难度正在逐年提高。
Kaggle 奖牌能让你成为 offer 收割机吗?
「赢得 Kaggle 不代表便是一名好的 ML 工程师」
两枚银牌得主「cpury」表明:
我不是金牌取得者,可是在本身范畴也得过两枚银牌。其实得 Kaggle 的奖仍是有用的,许多 Kaggler 在 linkedin 上加我,面试的时分这段阅历也常常会被说到。就算搞自由工作时,这也是你谈价格的筹码。
你可以说,我值这么多钱,由于我在 Kaggle 上处理过一个相似的问题,并且排在前 100 位。
我也附和,在 Kaggle 上做得好不代表便是一名好的 ML 工程师,Kaggle 过分重视纯数据科学,寻觅构思集合体,然后花费许多时刻(或许你还要花许多钱)进行试验,一起尽或许削减过拟合。关于竞赛而言,最好的模型便是可以供整个社区运用,你的主要使命也是做到这点。
「Kaggle 不会主动带来大厂 offer,但十分有用」
在 kaggle 竞赛中得过两次前三的网友「juliandewit」说:
我现在便是一名自由工作者,工作方面还不错。Kaggle 的确给我带来了一些不错的资源和报答,我也常常收到创业公司的约请,这仍是在我没有推销自己的前提下。
不过没有 Google/OpenAI/Facebook 的约请,也没有天价薪酬。
我个人觉得你应该在 Kaggle 上多尽力,假如说是为了找工作,Kaggle 是不会为你主动带来 offer 的,可是一个好的 Kaggle 成果当然十分有用。
「想成为优异的工程师,重在实践」
还有一位网友主张发帖者更重视实践阅历:
首要我觉得这个取决于你参与竞赛的类型。
在我(有限)的 Kaggle 阅历中,我发现那些获奖者很少具有最佳模型。假如模型要经过准确性得分/ AUC 进行评价,可以说前 10 名团队的得分都会大于 99.5%。你知道,这些模型大部分都被遗忘了。
所以我觉得赢得 Kaggle 竞赛不必定会让你成为优异的 ML 从业者。不错,挨近完美的准确性是很好,但假如暴露在实在数据中时彻底瘫痪,那就不是一个成功的模型。
网友「Nitro_V」也附和这一观念,一起弥补了自己的观念:
并且,一般在一些数据竞赛的终究排名中,前几名之间的差异仅仅算力的差异,有时乃至前 20 名之间的分数距离都不是特别显着。我见过在一些竞赛上,排名榜单自始至终运用的模型都简直相同。我个人认为,运用可行的,消耗算力更小的模型,要比一个过拟合的巨型网络要好得多。」
跟帖的网友「omniron」说:
以我有限的阅历看来,赢得 Kaggle 竞赛最重要的问题在于赛会设置的评价规范——而它们并非总是有意义的。咱们有必要挑选一些规范来评价每个人的水平,而这个规范并不总是合适他们要处理的实践使命。
Kaggle 竞赛往往关乎怎么依照最佳标准进行工程规划,而不是怎么构建最好的模型,来处理数据科学的具体问题,前者意味着更多的竞赛意味。
「我也见过代码才能很差的 Kaggle 获奖者」
网友「ivalm」讲了自己的亲身阅历:
Kaggle 或许不像大多数人印象中的那样,是体现人们拿手机器学习、数据科学的最好目标。在工作中,我面试过一位全球总榜排名约 100 位(Kaggle competition master)的求职者,以及一名在某项竞赛中排名第二的求职者。
当我问机器学习理论细节时,答复的很好,但在架构规划问题上就显得一般了,抛出代码应战问题之后,他们都惨遭失利。我很确认他在 Kaggle 竞赛上所做的一切仅仅学习公共内核(Kernel)、调好超参数、几许模型,然后花许多时刻测验。我置疑他每一步都运用了他人的代码,消耗了许多的时刻和精力。尽管咱们知道他的 Kaggle 成果没有造假,可是他的代码才能太差,让人不由感到置疑。
归纳看来,在机器学习热度不断进步的景象下,Kaggle 竞赛成果在用人单位眼中的重要程度也在逐步改变。
在 Reddit 的评论中,一位「阅人很多」的网友也给出了十分直接的定论:
「作为阅读了许多简历的人来说,这个问题的答案很简单:No.」
Anyway,关于大多数网友来说,Kaggle 获奖到底有没有用,是不是就相当于小时分「上清华仍是上北大」的问题?
参阅链接:
https:///r/MachineLearning/comments/dge24v/d_does_winning_a_kaggle_competition_really_help/