HyperAIHyperAI
vor 2 Monaten

Große Sprachmodelle sind Zero-Shot-Reasoner

Takeshi Kojima; Shixiang Shane Gu; Machel Reid; Yutaka Matsuo; Yusuke Iwasawa
Große Sprachmodelle sind Zero-Shot-Reasoner
Abstract

Vorab trainierte große Sprachmodelle (LLMs) werden in vielen Teilgebieten der natürlichen Sprachverarbeitung (NLP) weit verbreitet eingesetzt und sind generell als exzellente Few-Shot-Lerner mit aufgabenbezogenen Beispielen bekannt. Bemerkenswert ist die Technik des "Chain of Thought" (CoT)-Prompting, die kürzlich durch schrittweise Antwortbeispiele zur Elicitierung komplexer mehrstufiger Schlussfolgerungen entwickelt wurde. Diese Methode erzielte den aktuellen Stand der Technik in Bereichen wie Arithmetik und symbolische Schlussfolgerung, schwierigen System-2-Aufgaben, die den üblichen Skalierungsgesetzen für LLMs nicht folgen. Obwohl diese Erfolge oft der Fähigkeit von LLMs zugeschrieben werden, Few-Shot-Lernen zu ermöglichen, zeigen wir, dass LLMs auch gute Zero-Shot-Schlussfolgerer sind, indem man einfach "Lassen Sie uns Schritt für Schritt nachdenken" vor jede Antwort setzt. Experimentelle Ergebnisse belegen, dass unser Zero-shot-CoT unter Verwendung derselben einzelnen Prompt-Vorlage die Zero-Shot-Leistungen von LLMs bei verschiedenen Benchmark-Schlussfolgerungsaufgaben erheblich übertrifft, darunter Arithmetik (MultiArith, GSM8K, AQUA-RAT, SVAMP), symbolische Schlussfolgerung (Last Letter, Coin Flip) und andere logische Schlussfolgerungsaufgaben (Date Understanding, Tracking Shuffled Objects), ohne handgefertigte Few-Shot-Beispiele zu verwenden. Zum Beispiel steigert es die Genauigkeit bei MultiArith von 17,7 % auf 78,7 % und bei GSM8K von 10,4 % auf 40,7 % mit dem großen InstructGPT-Modell (text-davinci-002). Ähnliche Verbesserungen wurden auch mit einem anderen Standardgroßmodell beobachtet: dem 540-Milliarden-Parameter-PaLM. Die Vielseitigkeit dieses einzelnen Prompts bei sehr unterschiedlichen Schlussfolgerungsaufgaben deutet auf ungenutzte und unterschätzte grundlegende Zero-Shot-Fähigkeiten von LLMs hin und legt nahe, dass durch einfache Prompts hochwertige, multitaugliche breite kognitive Fähigkeiten extrahiert werden können. Wir hoffen, dass unsere Arbeit nicht nur als stärkste minimale Zero-Shot-Basislinie für anspruchsvolle Schlussfolgerungsbenchmarks dient, sondern auch die Bedeutung einer sorgfältigen Untersuchung und Analyse des riesigen im Inneren der LLMs verborgenen Zero-Shot-Wissens hervorhebt – bevor Feinabstimmungsdatensätze oder Few-Shot-Beispiele erstellt werden.

Große Sprachmodelle sind Zero-Shot-Reasoner | Neueste Forschungsarbeiten | HyperAI