Command Palette
Search for a command to run...
Die Illusion der abnehmenden Rendite: Die Messung der Langzeit-Ausführung in großen Sprachmodellen
Akshit Sinha Arvindh Arun Shashwat Goel Steffen Staab Jonas Geiping

Abstract
Führt die kontinuierliche Skalierung großer Sprachmodelle (LLMs) zu abnehmenden Erträgen? Der praktische Nutzen stammt oft von der Länge einer Aufgabe, die ein Agent erfolgreich abschließen kann. Wir beginnen diese Arbeit mit der beobachteten, wenn auch kontraintuitiven Tatsache, dass marginaler Gewinn an Einzelschrittgenauigkeit sich zu exponentiellen Verbesserungen in der Länge einer Aufgabe, die ein Modell erfolgreich bewältigen kann, aufsummieren kann. Anschließend argumentieren wir, dass die Ausfälle von LLMs bei der Verlängerung einfacher Aufgaben auf Fehlern bei der Ausführung beruhen, nicht auf einer Unfähigkeit zum Schlussfolgern. Wir schlagen vor, die Ausführungsstärke zu isolieren, indem wir das Modell explizit mit den notwendigen Kenntnissen und einem Plan zur Lösung einer langfristigen Aufgabe versorgen. Wir stellen fest, dass größere Modelle signifikant mehr Schritte korrekt ausführen können, selbst wenn kleinere Modelle eine Einzelschrittgenauigkeit von 100 % erreichen. Zudem beobachten wir, dass die Genauigkeit pro Schritt mit zunehmender Anzahl von Schritten abnimmt. Dies liegt nicht allein an den Beschränkungen des langen Kontextes – kurioserweise beobachten wir einen Selbstbedingungseffekt: Modelle neigen dazu, bei längeren Aufgaben häufiger Fehler zu machen, wenn der Kontext bereits Fehler aus vorherigen Schritten enthält. Dieser Selbstbedingungseffekt verringert sich nicht einfach durch bloße Erhöhung der Modellgröße. Im Gegensatz dazu zeigen neuere Denkmodelle keinen solchen Selbstbedingungseffekt und können auch viel längere Aufgaben in einem einzigen Schritt ausführen. Abschließend bewerten wir fortgeschrittene Denkmodelle hinsichtlich der Länge der Aufgaben, die sie in einem einzigen Schritt bewältigen können. Insgesamt hoffen wir, durch die Fokussierung auf die Ausführungsstärke die Debatte über die Fähigkeit von LLMs, komplexe Schlussfolgerungen zu ziehen, aber einfache Aufgaben bei Verlängerung zu versagen, zu klären, und die enormen Vorteile der Skalierung der Modellgröße sowie sequenzieller Testzeit-Compute-Ressourcen für langfristige Aufgaben hervorzuheben.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.