作弊翻车!Kaggle 大赛第一团队获最严处分

近日, kaggle 比赛曝出一个作弊事件,作弊团队通过爬取测试数据集答案作假,最终取得第一名。经举报与查证后,该团队已经被取消参赛资格,而作弊的关键人物,也被永久禁赛。

有考试的地方就有作弊,即使反作弊机制也没能防止。

近日,在 kaggle 的一项竞赛讨论页面,一个比赛组织方「PetFinder.my」宣布,名为 Bestpetting  的冠军团队,因在「PetFinder.my Adoption Prediction」比赛中作弊,已被取消参赛资格。

该比赛第一名奖金为 1 万美元

其中,该团队成员还包含一位 Kaggle  Grandmaster Pavel Pleskov,他也被永久禁赛,因为有证据表明,他是该作弊活动背后的关键人物。

而 Pavel Pleskov 在被揭发之后,已经公开道歉,并表示会尽快归还 1 万美元的奖金。但他为作弊付出的代价却不止于此。

2000 个团队参赛,前五名可获奖金

这场比赛是由马来西亚宠物福利平台「PetFinder.my」举办的,以拯救动物生命为目的的公益性比赛。平台拥有超过 15 万只动物的数据库,与动物爱好者、媒体、企业等合作,以改善动物福利。

预测宠物被领养速度,成为 kaggle 的热门赛事

该比赛的参赛者开发的算法,会被用来预测宠物的领养速度。因为研究表明,宠物被领养的速度与它们在网上在线档案中的照片、描述等元数据密切相关。参赛者的任务就是找出这种相关性,帮助宠物领养机构优化宠物的电子档案,使其看上去更加有吸引力,从而提高被领养的速度,减少「安乐死」的数量。

比赛时间:该比赛于 2019 年 3 月 21 日截止报名,3 月 28 日为提交参赛作品截止日期。最终成绩于 2019 年 4 月 9 日公布。

比赛规模:比赛最终共有 2000 个团队参加,但只有前五名获得了奖金。从第一名到第五名的奖金金额分别为 1 万美元,7000 美元,5000 美元,2000 美元和 1000 美元。

「第一名」如何作弊成功骗得奖金?

获得第一名的 Bestpetting 团队,在比赛过程中,暗中爬取了私有测试数据集,并将这些数据隐藏在提交的内容中,最终赢得了比赛的一等奖,获得 1 万美元奖金。

据 PetFinder.my 公布,其具体作弊行为如下:

  • 他们以作弊的方式获得了私有测试数据的领养速度答案(可能是从主办方 PetFinder.my 的网站抓取);
  • 然后他们将这些数据和答案进行编码,混淆到一个 ID 字段中,该 ID 字段伪装成他们的外部「cute-cats-and-dogs-from-pixabaycom」的外部数据集的一部分;
  • 在处理数据时,他们对这些混进来的 ID 字段进行解码,答案在预测阶段可以被检索到;
  • 最后,他们仅使用一些经过编码的答案,以使最终分数看起来更加「真实」;
  • 这些处理过的代码被经过精心隐藏和混淆在许多嵌套函数和代码层下,故意将其设计为高度不可读且看似普通的样子

简而言之,就是该团队先通过作弊的方式预先获取了测试集的答案,然后使用了其中的一部分进行编码,比赛时再对其解码,最终把这标准答案作为自己的比赛「战果」,从而取得「优异成绩」。

迟来却并未缺席的举报 

据主办方介绍,这次作弊行为是由本杰明·米克斯霍夫(Benjamin Minixhofer)发现的。他是「PetFinder.my」比赛的第六名。

在帮主办方 PetFinder.my 将第一名的方案产品化时,本杰明·米克斯霍夫发现了第一名作弊的迹象,从而将违规行为报告给 kaggle。

kaggle 进行了深入调查之后,确认作弊实锤。除了宣布禁赛外,还将该团队从排行榜撤下,因此,其他参赛者便都提升了一个名次。这是 kaggle 平台创立以来,第一次参赛者因作弊被彻底取消资格。

对此,主办方与检举人都表示很难过。

比赛主办方称:「我们可敬的人们,包括备受尊敬的 Kaggle Grandmaster,竟然在一场为挽救动物生命的竞赛中,竭尽全力用欺骗手段获取经济利益,对此我们的确感到可悲。」

主办方还公布了作弊的详细方法,认为这也很有教育意义

检举人表示:「这件事破坏了 Kaggle 比赛的公平性,而且我费了半天劲想把他们的方案转化为生产系统,结果竟然是作弊。也许 kaggle 官方不希望我发表这篇公开了许多私人测试数据的文章,但我希望参赛者们都能从中得到一些启发。」

而 Pavel Pleskov 所在的公司 H2O.ai,也表示已经解雇 Pavel Pleskov ,并且称「从此此人与我司无任何关系」。

Pavel Pleskov 曾任 H2O.ai 公司数据科学家一职

及时道歉,但他能得到原谅吗? 

事后,Pavel Pleskov 在第一时间站出来道歉,认错态度还挺诚恳,他还表示团队会尽快退还奖金。他说:「对我而言,这与金钱无关,而与 kaggle 积分有关,不断成为第一的刺激已经让我失去了判断力。」

Pavel Pleskov 表示他希望得到一些原谅,并会好好反思

此前,他因成为 Grandmaster 而被 kaggle 采访,YouTube 上的主题为「如何成为 Kaggle Grandmaster」的演讲视频有着超过 2 万次的观看记录。如今看来真是满满的讽刺。

昔日带着光环备受关注的他,如今名誉扫地。这就是为作弊付出的代价。对于比赛中的作弊事件,你怎么看呢?

—— 完 ——

抱歉,暂无相关内容推荐。