vor 3 Tagen

CoT-Self-Instruct: Aufbau hochwertiger synthetischer Prompts für Schlussfolgerungs- und Nicht-Schlussfolgerungsaufgaben

Ping Yu, Jack Lanchantin, Tianlu Wang, Weizhe Yuan, Olga Golovneva, Ilia Kulikov, et al

Abstract

Wir stellen CoT-Self-Instruct vor, eine Methode zur Generierung synthetischer Daten, bei der große Sprachmodelle zunächst mittels Chain-of-Thought (CoT) schrittweise reasoning und Planung basierend auf vorgegebenen Seed-Aufgaben durchführen, anschließend jedoch einen neuen, qualitativ hochwertigen und komplexitätsähnlichen synthetischen Prompt generieren, der zur Ausbildung von Sprachmodellen verwendet wird, gefolgt von einer Filterung hochwertiger Daten mittels automatischer Metriken. Bei überprüfbarer Schlussfolgerung übertrifft unsere synthetische Datensammlung bestehende Trainingsdatensätze wie s1k und OpenMathReasoning signifikant in den Benchmark-Datensätzen MATH500, AMC23, AIME24 und GPQA-Diamond. Bei nicht überprüfbaren Aufgaben zur Befolgung von Anweisungen erreicht unsere Methode eine bessere Leistung als menschliche oder herkömmliche Self-Instruct-Prompts sowohl auf AlpacaEval 2.0 als auch auf Arena-Hard.