Command Palette
Search for a command to run...
Wann ist Schlussfolgern wichtig? Eine kontrollierte Studie zum Beitrag des Schlussfolgerns für die Modellleistung
Nicolas Boizard Hippolyte Gisserot-Boukhlef Kevin El-Haddad Céline Hudelot Pierre Colombo

Abstract
Große Sprachmodelle (Large Language Models, LLMs) mit Schlussfolgerungsfähigkeiten haben eine erstklassige Leistung auf einer Vielzahl von Aufgaben erzielt. Trotz ihres empirischen Erfolgs bleiben die Aufgabenbereiche und Modellgrößen, bei denen Schlussfolgerung wirksam wird, sowie die Kosten für das Training und die Inferenz weiterhin unzureichend erforscht. In dieser Arbeit nutzen wir einen synthetischen Daten-Distillationsansatz, um eine großflächige, überwachte Studie durchzuführen. Wir vergleichen Instruction-Fine-Tuning (IFT) und Schlussfolgerungsmodelle unterschiedlicher Größe anhand einer breiten Palette mathematikzentrierter und allgemeiner Aufgaben und bewerten sowohl Multiple-Choice- als auch offene Antwortformate. Unsere Analyse zeigt, dass Schlussfolgerung die Modellleistung konsistent verbessert und oft deutlich größere IFT-Systeme erreicht oder sogar übertreffen kann. Insbesondere bleibt IFT hinsichtlich der Trainings- und Inferenzkosten weiterhin pareto-optimal. Doch mit zunehmender Modellgröße gewinnen Schlussfolgerungsmodelle zunehmend an Wert und überwinden die Leistungsgrenzen von IFT bei aufschlussintensiven und offenen Aufgaben.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.