
摘要
近期,机器学习领域经历了一次深刻的自我反思。在2018年国际学习表征会议(ICLR 2018)上广受讨论的一篇论文中,Sculley 等人指出:“我们观察到,该领域整体在实证进步方面的速度,并未伴随着实证严谨性持续提升的同步进展。” 他们的核心批评在于,当前研究与发表文化过度强调“胜出”(emphasis in original),其通常意味着“证明一种新方法在特定任务或基准测试中优于先前的方法”。这一现象可形象地概括为“排行榜追逐”——而在许多计算机视觉与自然语言处理任务中,这并非比喻。事实上,存在大量集中管理的排行榜(leaderboards)1,持续追踪微小的性能提升,精确到小数点后第五位,有些榜单甚至持续数年,累积了数十项提交结果。Sculley 等人提醒我们:“科学的目标并非赢得胜利,而是获得知识。” 然而,当今科学体系的结构(如发表压力、研究进展速度等)使得“获胜”与“开展高质量科学工作”之间往往难以完全一致。为此,他们引用了多项研究指出,近年来神经网络领域的诸多所谓“突破”,很可能仅仅源于一些基础性问题的改善,例如更优的超参数调优。许多研究结果无法复现,部分观察到的性能提升可能仅是随机噪声所致。