vor 15 Tagen

STaR: Bootstrapping Reasoning With Reasoning

Eric Zelikman, Yuhuai Wu, Jesse Mu, Noah D. Goodman

Abstract

Die schrittweise Generierung von „Chain-of-Thought“-Begründungen verbessert die Leistung von Sprachmodellen bei komplexen Schlussfolgerungsaufgaben wie Mathematik oder alltagsweltbasiertem Fragenbeantworten. Derzeit erfordert die Induktion von Begründungen in Sprachmodellen entweder die Erstellung riesiger Begründungsdatensätze oder eine Genauigkeitsminderung durch die Nutzung nur weniger Beispielvorgaben (few-shot-Inferenz). Wir stellen eine Technik vor, die eine kleine Anzahl von Begründungsbeispielen und eine große Menge an Daten ohne Begründungen iterativ nutzt, um die Fähigkeit des Modells schrittweise zu verbessern, immer komplexere Schlussfolgerungen zu ziehen. Diese Technik, die „Self-Taught Reasoner“ (STaR), basiert auf einem einfachen Schleifensystem: Generiere Begründungen, um viele Fragen zu beantworten, wobei nur wenige Begründungsbeispiele als Prompt dienen; falls die generierten Antworten falsch sind, versuche erneut, eine Begründung unter Verwendung der korrekten Antwort zu generieren; fine-tune das Modell anhand aller Begründungen, die letztlich korrekte Antworten erzeugt haben; wiederhole diesen Prozess. Wir zeigen, dass STaR die Leistung auf mehreren Datensätzen erheblich verbessert im Vergleich zu einem Modell, das direkt auf die Vorhersage der Endantwort fine-tuned wurde, und eine Leistung erzielt, die vergleichbar ist mit der eines 30-mal größeren, state-of-the-art-Sprachmodells, das auf CommensenseQA fine-tuned wurde. Damit ermöglicht STaR es einem Modell, sich selbst zu verbessern, indem es aus seiner eigenen generierten Schlussfolgerung lernt.