L’excitation neuronale et les comparaisons contre des bases faibles

Récemment, la communauté du machine learning s’est arrêtée un instant pour s’interroger. Dans un article largement discuté lors de l’ICLR 2018, Sculley et al. ont écrit : « Nous observons que le rythme des progrès empiriques n’a peut-être pas été accompagné d’une amélioration constante du niveau de rigueur empirique au sein du domaine dans son ensemble. » Leur principal reproche porte sur le développement d’une « culture de recherche et de publication axée sur les succès » (souligné dans l’original), ce qui signifie généralement « démontrer qu’une nouvelle méthode bat les méthodes précédentes sur une tâche ou un benchmark donné ». Une description pertinente serait « la course au classement » — et pour de nombreuses tâches en vision par ordinateur et en traitement du langage naturel, ce n’est pas une métaphore. Il existe effectivement des classements centralisés¹ qui suivent les progrès incrémentaux, jusqu’à la cinquième décimale, certains persistant pendant des années et accumulant des dizaines de contributions.Sculley et al. nous rappellent que « le but de la science n’est pas de remporter des victoires, mais d’acquérir des connaissances ». La structure de l’entreprise scientifique actuelle (pression pour publier, rythme des progrès, etc.) fait que « remporter des victoires » et « faire de la bonne science » ne sont souvent pas pleinement alignés. À titre d’exemple, ils citent plusieurs travaux montrant que les progrès récents dans les réseaux de neurones pourraient très bien s’expliquer par des questions banales telles qu’une meilleure optimisation des hyperparamètres. De nombreux résultats ne sont pas reproductibles, et certaines améliorations observées pourraient tout simplement être du bruit.