Sprachmodelle durch menschliches Feedback zum Folgen von Anweisungen trainieren

Die Vergrößerung von Sprachmodellen macht sie nicht zwangsläufig besser darin, dem Nutzerintention zu folgen. Beispielsweise können große Sprachmodelle Ausgaben erzeugen, die unwahr, toxisch oder einfach nicht hilfreich für den Nutzer sind. Mit anderen Worten: Diese Modelle sind nicht mit ihren Nutzern ausgerichtet. In diesem Paper zeigen wir einen Ansatz, um Sprachmodelle auf einer Vielzahl von Aufgaben mit der Nutzerintention auszurichten, indem sie mittels menschlicher Rückmeldung feinjustiert werden. Ausgehend von einer Sammlung von vom Labeler verfassten Prompten sowie von über die OpenAI-API eingereichten Prompten sammeln wir eine Datensatz von Demonstrationen durch Labeler, die das gewünschte Modellverhalten zeigen, die wir zur Feinjustierung von GPT-3 mittels überwachtem Lernen nutzen. Anschließend sammeln wir einen Datensatz von Rangfolgen von Modellausgaben, die wir zur weiteren Feinjustierung dieses überwachten Modells mittels Verstärkendem Lernen aus menschlicher Rückmeldung verwenden. Die resultierenden Modelle nennen wir InstructGPT. In menschlichen Bewertungen auf unserer Prompt-Verteilung werden Ausgaben des 1,3-Billionen-Parameter-InstructGPT-Modells gegenüber Ausgaben des 175-Billionen-Parameter-GPT-3-Modells bevorzugt, obwohl es 100-mal weniger Parameter besitzt. Zudem zeigen die InstructGPT-Modelle Verbesserungen hinsichtlich Wahrheitsgehalt und eine Reduktion der Generierung toxischer Ausgaben, wobei die Leistung auf öffentlichen NLP-Datensätzen nur minimal zurückgeht. Obwohl InstructGPT weiterhin einfache Fehler macht, zeigen unsere Ergebnisse, dass die Feinjustierung mittels menschlicher Rückmeldung ein vielversprechender Ansatz zur Ausrichtung von Sprachmodellen an menschliche Intentionen ist.