NVIDIA-Team gewinnt AGI-Wettbewerb mit kosteneffizienter KI-Lösung
NVIDIA-Forscher haben bei der Kaggle ARC Prize 2025 eine wegweisende Leistung erbracht und den Wettbewerb im Bereich künstlicher allgemeiner Intelligenz (AGI) gewonnen. Ivan Sorokin und Jean-François Puget, zwei Mitglieder der Kaggle Grandmasters of NVIDIA (KGMoN), erreichten mit ihrer Lösung „NVARC“ eine Punktzahl von 27,64 % auf der öffentlichen Leaderboard des ARC-AGI-2-Benchmarks – einem der anspruchsvollsten Tests für abstraktes Denken in der KI-Forschung. Nach dem Wettbewerb verbesserten sie ihre Leistung auf 29,72 %, wobei sie mit nur 20 Cent pro Aufgabe außergewöhnlich kosteneffizient arbeiteten. Ihr fein abgestimmtes 4B-Modell übertraf dabei deutlich größere, teurere Modelle, was einen wichtigen Durchbruch in der Skalierbarkeit und Wirtschaftlichkeit AGI-ähnlichen Schließens darstellt. Der ARC-AGI-2-Benchmark prüft, wie gut KI-Systeme aus wenigen Beispielen abstrakte Regeln ableiten und auf neue, unbekannte Aufgaben übertragen können. Die Aufgaben basieren auf visuellen Gitterrätseln mit nur wenigen Trainingsbeispielen – ein Design, das speziell darauf abzielt, die Leistung von KI bei echter Systematik und Generalisierung zu messen, anstatt auf Brute-Force- oder Speicherstrategien. Im Gegensatz zu herkömmlichen Benchmarks, die durch Skalierung oder Mustererkennung überlistet werden können, erfordert ARC-AGI-2 echtes Verständnis und Flexibilität. Der Erfolg von NVARC lag nicht in der Nutzung riesiger Modelle oder intensiver Suche, sondern in einer cleveren Kombination aus synthetischer Datengenerierung, Testzeit-Training und präziser Ingenieursarbeit. Da klassische Ansätze wie Chain-of-Thought oder RL-Agenten bei Kaggle aufgrund strikter Zeit- und Rechenbeschränkungen nicht praktikabel waren, wurde die Strategie umgedreht: Komplexes Schlussfolgern wurde offline in einem synthetischen Datenpipeline-Prozess vorbereitet. Durch schrittweise Puzzlegenerierung, Konzeptzerlegung und den Einsatz fortschrittlicher offener Modelle wurde eine vielfältige Datenbasis erstellt. Die Endmodelle mussten dann nur noch Muster erkennen und anpassen – ohne komplexe Programmensuche während der Evaluierung. Ein zentraler Faktor war das Testzeit-Training: Die Modelle lernten die spezifischen Regeln jedes Rätsels direkt aus den wenigen Beispielen, was sich als entscheidend für Spitzenleistungen erwiesen hat. Die resultierende, kompakte Ensemble-Lösung war nicht nur effizienter, sondern auch leistungsfähiger als viele größere Systeme. Die Entwicklung wurde mit der NVIDIA NeMo-Plattform unterstützt, insbesondere durch NeMo RL für skalierbares Verstärkungslernen und NeMo Skills zur Optimierung der synthetischen Datenpipeline. Die Ergebnisse zeigen, dass künstliche Intelligenz mit begrenzten Ressourcen durch intelligente Datenstrategien und adaptive Lernmethoden erhebliche Fortschritte bei allgemeinem Denken erzielen kann. Industrieexperten sehen in diesem Erfolg eine bedeutende Wendung: „Dies ist kein Modell, das durch Größe gewinnt, sondern durch Klugheit“, sagt ein KI-Experte von DeepMind. „Die Kombination aus synthetischer Daten und Testzeit-Training könnte der Schlüssel zu praxistauglichen, effizienten AGI-Systemen werden.“ NVIDIA positioniert sich mit dieser Leistung als Vorreiter in der Entwicklung wirtschaftlich sinnvoller, allgemein anwendbarer KI-Systeme.
