Benchopt: Wiederholbare, effiziente und kollaborative Optimierungsbenchmarks

Die numerische Validierung steht im Zentrum der Forschung im Bereich des maschinellen Lernens, da sie es ermöglicht, den tatsächlichen Einfluss neuer Methoden zu bewerten und die Übereinstimmung zwischen Theorie und Praxis zu bestätigen. Dennoch stellt die rasante Entwicklung des Feldes mehrere Herausforderungen dar: Forscher stehen vor einer Fülle zu vergleichender Methoden, fehlender Transparenz und Konsens hinsichtlich bewährter Praktiken sowie zeitaufwändigen Wiederimplementierungen. Als Folge ist die Validierung oft sehr partiell, was zu irrtümlichen Schlussfolgerungen führen kann, die die Forschungsgeschwindigkeit verlangsamen. Wir stellen Benchopt vor, einen kooperativen Rahmen, der die Automatisierung, Wiederholbarkeit und Veröffentlichung von Optimierungsbenchmarks im maschinellen Lernen über verschiedene Programmiersprachen und Hardware-Architekturen hinweg ermöglicht. Benchopt vereinfacht das Benchmarking für die Gemeinschaft durch die Bereitstellung eines sofort verwendbaren Tools zum Ausführen, Teilen und Erweitern von Experimenten. Um die breite Anwendbarkeit zu demonstrieren, präsentieren wir Benchmarks für drei Standardaufgaben des Lernens: ℓ₂-regulierter logistischer Regression, Lasso sowie die Trainingsphase von ResNet18 für die Bildklassifikation. Diese Benchmarks heben zentrale praktische Erkenntnisse hervor, die ein differenzierteres Bild des aktuellen Standes der Technik für diese Probleme liefern und zeigen, dass sich bei der praktischen Bewertung die Details entscheidend auswirken. Wir hoffen, dass Benchopt die kooperative Forschung in der Gemeinschaft fördert und somit die Wiederholbarkeit von Forschungsergebnissen verbessert.