Chain-of-Thought-Prompting ruft bei großen Sprachmodellen Reasoning hervor

Wir untersuchen, wie die Generierung einer Gedankenkette – einer Reihe von Zwischenschritten der Schlussfolgerung – die Fähigkeit großer Sprachmodelle erheblich verbessert, komplexe Schlussfolgerungen zu ziehen. Insbesondere zeigen wir, dass solche Schlussfolgerungsfähigkeiten sich natürlich in ausreichend großen Sprachmodellen durch eine einfache Methode namens „Chain-of-Thought-Prompting“ entwickeln, bei der lediglich einige Beispiele einer Gedankenkette als Vorbilder im Prompting bereitgestellt werden. Experimente an drei großen Sprachmodellen belegen, dass das Chain-of-Thought-Prompting die Leistung auf einer Vielzahl arithmetischer, alltagsweltlicher und symbolischer Schlussfolgerungsaufgaben verbessert. Die empirischen Verbesserungen können beeindruckend sein. So erreicht ein Sprachmodell mit 540 Milliarden Parametern durch das Prompting mit lediglich acht Beispielen einer Gedankenkette eine state-of-the-art-Genauigkeit auf der GSM8K-Benchmark für mathematische Textaufgaben – und übertrifft sogar ein verfeinertes GPT-3-Modell mit einem Verifizierungsmechanismus.