Die neuronale Hype und Vergleiche mit schwachen Baselines

Kürzlich hielt die Machine-Learning-Community inne, um eine Selbstreflexion einzuleiten. In einer in der ICLR 2018 breit diskutierten Arbeit schrieben Sculley et al.: „Wir beobachten, dass die Rate empirischer Fortschritte möglicherweise nicht durch eine konsequente Steigerung des Niveaus empirischer Rigor im gesamten Feld korreliert hat.“ Ihr Hauptanliegen ist die Entwicklung einer „Forschungs- und Publikationskultur, die auf Siege setzt“ (Hervorhebung im Original), was gewöhnlich bedeutet: „zu zeigen, dass eine neue Methode gegenüber früheren Ansätzen bei einer bestimmten Aufgabe oder einem bestimmten Benchmark besser abschneidet“. Eine treffende Beschreibung hierfür wäre „Leaderboard-Jagen“ – und für viele Aufgaben im Bereich Vision und NLP ist dies keinesfalls metaphorisch. Es gibt tatsächlich zentralisierte Leaderboards¹, die den schrittweisen Fortschritt bis auf den fünften Dezimalplatz verfolgen, manche über Jahre hinweg bestehen und Dutzende Einträge aufweisen.Sculley et al. erinnern uns daran, dass „das Ziel der Wissenschaft nicht Siege, sondern Wissen ist“. Die Struktur des wissenschaftlichen Unternehmens heute (Publikationsdruck, Tempo der Fortschritte usw.) führt dazu, dass „Gewinnen“ und „gute Wissenschaft betreiben“ oft nicht vollständig übereinstimmen. Um dies zu untermauern, verweisen sie auf mehrere Studien, die nahelegen, dass jüngste Fortschritte in neuronalen Netzen durchaus banalen Faktoren wie eine verbesserte Hyperparameter-Optimierung zuzuschreiben sein könnten. Viele Ergebnisse sind nicht reproduzierbar, und einige beobachtete Verbesserungen könnten lediglich Rauschen darstellen.