Command Palette
Search for a command to run...
Große Sprachmodelle sind Zero-Shot-Reasoner
Große Sprachmodelle sind Zero-Shot-Reasoner
Takeshi Kojima Shixiang Shane Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa
Zusammenfassung
Vorab trainierte große Sprachmodelle (LLMs) werden in vielen Teilgebieten der natürlichen Sprachverarbeitung (NLP) weit verbreitet eingesetzt und sind generell als exzellente Few-Shot-Lerner mit aufgabenbezogenen Beispielen bekannt. Bemerkenswert ist die Technik des "Chain of Thought" (CoT)-Prompting, die kürzlich durch schrittweise Antwortbeispiele zur Elicitierung komplexer mehrstufiger Schlussfolgerungen entwickelt wurde. Diese Methode erzielte den aktuellen Stand der Technik in Bereichen wie Arithmetik und symbolische Schlussfolgerung, schwierigen System-2-Aufgaben, die den üblichen Skalierungsgesetzen für LLMs nicht folgen. Obwohl diese Erfolge oft der Fähigkeit von LLMs zugeschrieben werden, Few-Shot-Lernen zu ermöglichen, zeigen wir, dass LLMs auch gute Zero-Shot-Schlussfolgerer sind, indem man einfach "Lassen Sie uns Schritt für Schritt nachdenken" vor jede Antwort setzt. Experimentelle Ergebnisse belegen, dass unser Zero-shot-CoT unter Verwendung derselben einzelnen Prompt-Vorlage die Zero-Shot-Leistungen von LLMs bei verschiedenen Benchmark-Schlussfolgerungsaufgaben erheblich übertrifft, darunter Arithmetik (MultiArith, GSM8K, AQUA-RAT, SVAMP), symbolische Schlussfolgerung (Last Letter, Coin Flip) und andere logische Schlussfolgerungsaufgaben (Date Understanding, Tracking Shuffled Objects), ohne handgefertigte Few-Shot-Beispiele zu verwenden. Zum Beispiel steigert es die Genauigkeit bei MultiArith von 17,7 % auf 78,7 % und bei GSM8K von 10,4 % auf 40,7 % mit dem großen InstructGPT-Modell (text-davinci-002). Ähnliche Verbesserungen wurden auch mit einem anderen Standardgroßmodell beobachtet: dem 540-Milliarden-Parameter-PaLM. Die Vielseitigkeit dieses einzelnen Prompts bei sehr unterschiedlichen Schlussfolgerungsaufgaben deutet auf ungenutzte und unterschätzte grundlegende Zero-Shot-Fähigkeiten von LLMs hin und legt nahe, dass durch einfache Prompts hochwertige, multitaugliche breite kognitive Fähigkeiten extrahiert werden können. Wir hoffen, dass unsere Arbeit nicht nur als stärkste minimale Zero-Shot-Basislinie für anspruchsvolle Schlussfolgerungsbenchmarks dient, sondern auch die Bedeutung einer sorgfältigen Untersuchung und Analyse des riesigen im Inneren der LLMs verborgenen Zero-Shot-Wissens hervorhebt – bevor Feinabstimmungsdatensätze oder Few-Shot-Beispiele erstellt werden.