Große Sprachmodelle durch step-aware Verifier zu besseren Reasonern machen

Few-shot-Lernen ist eine herausfordernde Aufgabe, die es Sprachmodellen ermöglicht, aus wenigen Beispielen zu generalisieren. Große Sprachmodelle wie GPT-3 und PaLM haben in diesem Bereich beeindruckende Fortschritte erzielt, stoßen jedoch weiterhin auf Schwierigkeiten bei Schlussfolgerungsaufgaben wie GSM8K, einem Benchmark für arithmetische Probleme. Um die Schlussfolgerungsfähigkeit zu verbessern, haben frühere Arbeiten vorgeschlagen, Sprachmodelle mit Prompten zu führen, die eine Reihe von Schlussfolgerungsschritten vor der endgültigen Antwort hervorrufen, wodurch sich die Problemlösungsrate auf GSM8K von 17,9 % auf 58,1 % signifikant verbesserte. In diesem Paper stellen wir DIVERSE (Diverse Verifier on Reasoning Step) vor, einen neuartigen Ansatz, der die Schlussfolgerungsfähigkeit von Sprachmodellen weiter verbessert. DIVERSE besteht aus drei Hauptkomponenten: Erstens generiert es vielfältige Prompts, um verschiedene Schlussfolgerungspfade für dieselbe Frage zu erkunden; zweitens nutzt es einen Verifikator, um falsche Antworten anhand eines gewichteten Abstimmungsschemas zu filtern; und drittens verifiziert es jeden Schlussfolgerungsschritt einzeln, anstatt die gesamte Schlussfolgerungskette als Ganzes zu überprüfen. Wir evaluieren DIVERSE am neuesten Sprachmodell code-davinci-002 und zeigen, dass es neue SOTA-Ergebnisse auf sechs von acht Schlussfolgerungsbenchmarks erzielt (z. B. GSM8K von 74,4 % auf 83,2 %).