HyperAI

Feinabstimmung Der Verstärkung

Reinforcement Fine-Tuning (RFT) ist eine Methode, die überwachtes Feintuning (SFT) und bestärkendes Lernen (RL) kombiniert. Ziel ist es, die Fähigkeit des Modells zur Generierung qualitativ hochwertiger Antworten zu optimieren, indem das Erlernen mehrerer Argumentationspfade und die automatische Auswertung des Übereinstimmungsgrads zwischen diesen Pfaden und den richtigen Antworten eingeführt wird.

RFT wurde erstmals 2024 von ByteDance vorgeschlagen.ReFT: Argumentation mit verstärkter Feinabstimmung" wurde in ACL 2024 veröffentlicht. Diese Technologie verbessert die Modellleistung in zwei Phasen: Die erste ist die Aufwärmphase, in der SFT verwendet wird, um das Modell aufzuwärmen und eine Grundlage für das Modell zu schaffen, damit es grundsätzlich richtige Antworten auf mathematische Probleme generieren kann; die zweite ist die Phase des bestärkenden Lernens (RL), in der Online-bestärkendes Lernen (insbesondere der PPO-Algorithmus) zur Optimierung verwendet wird, indem automatisch eine große Anzahl von Argumentationspfaden abgetastet und Belohnungen basierend auf den tatsächlichen Antworten erhalten werden, um das Modell weiter zu optimieren.

RFT zeigt bei mehreren Datensätzen eine bessere Leistung als SFT, insbesondere beim CodeLLAMA-Modell. Die Genauigkeit von RFT im GSM8K-Datensatz ist fast 10 Prozentpunkte höher als die von SFT. Mithilfe dieser Technologie kann das Modell nicht nur Antworten lernen, sondern auch Denkpfade basierend auf Aufgabenanforderungen optimieren, eine „Feedbackschleife“ für das Modell erstellen und die Bewertung der Modellausgaben durch domänenspezifische Bewerter steuern, um Lösungen zu trainieren, die an spezifische Szenarioanforderungen angepasst sind.