vor einem Monat

Skalierung von codeassistierten Ketten des Denkens und Anweisungen zur Modellbegründung

Honglin Lin Qizhi Pei Xin Gao Zhuoshi Pan Yu Li Juntao Li Conghui He Lijun Wu

Abstract

Die Schlüsselrolle der Schlussfolgerungsfähigkeit ist entscheidend für die Fähigkeit großer Sprachmodelle (Large Language Models, LLMs), komplexe Aufgaben zu bewältigen. Dennoch bleibt die Erzielung zuverlässiger und skalierbarer Schlussfolgerungsfähigkeit eine Herausforderung. Während die Chain-of-Thought-(CoT)-Prompting-Technik zur Standardmethode geworden ist, leiden bestehende Ansätze häufig unter unkontrollierter Generierung, unzureichender Qualität und geringer Vielfalt an Schlussfolgerungspfaden. Neuere Ansätze nutzen Code, um CoT zu verbessern, indem sie die Schlussfolgerung auf ausführbare Schritte gründen. Solche Methoden sind jedoch typischerweise auf vordefinierte mathematische Probleme beschränkt, was ihre Skalierbarkeit und Allgemeingültigkeit einschränkt. In dieser Arbeit stellen wir Caco (Code-Assisted Chain-of-ThOught) vor – einen neuartigen Rahmen, der die automatisierte Synthese hochwertiger, überprüfbarer und vielfältiger Anweisungs-CoT-Schlussfolgerungsdaten durch codegestützte Erweiterung ermöglicht. Im Gegensatz zu früheren Ansätzen feinjustiert Caco zunächst einen auf Code basierenden CoT-Generator anhand vorhandener mathematischer und programmierbasierter Lösungen in einer einheitlichen Code-Form, um anschließend die Datengenerierung auf eine große Menge vielfältiger Schlussfolgerungstraces zu skalieren. Entscheidend ist, dass wir eine automatisierte Validierung mittels Code-Ausführung und regelbasiertes Filtern einführen, um logische Korrektheit und strukturelle Vielfalt sicherzustellen. Anschließend werden die gefilterten Ausgaben rückwärts in natürlichsprachliche Anweisungen und Sprach-CoTs umgewandelt, um die Aufgabenanpassungsfähigkeit zu erhöhen. Dieser geschlossene Schleifenprozess ermöglicht die vollautomatisierte, skalierbare Synthese von Schlussfolgerungsdaten mit garantiert ausführbarer Qualität. Experimente an unserem neu erstellten Caco-1,3M-Datensatz zeigen, dass Modelle, die mit Caco trainiert wurden, starke, wettbewerbsfähige Leistungen bei mathematischen Schlussfolgerungsbewertungen erzielen und bestehende starke Baselines übertreffen. Eine weitere Analyse zeigt, dass die codebasierte Validierung und die Vielfalt der Anweisungen zu einer überlegenen Generalisierung über unbekannte Aufgaben hinaus beitragen. Unser Ansatz etabliert ein Paradigma für die Entwicklung selbstsustainer, vertrauenswürdiger Schlussfolgerungssysteme ohne menschliches Eingreifen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Skalierung von codeassistierten Ketten des Denkens und Anweisungen zur Modellbegründung

Honglin Lin Qizhi Pei Xin Gao Zhuoshi Pan Yu Li Juntao Li Conghui He Lijun Wu

Abstract

KI mit KI entwickeln

Hyper Newsletters