HyperAIHyperAI
vor 10 Tagen

Self-play mit Ausführungsrückmeldung: Verbesserung der Anweisungsbefolgungsfähigkeiten von Large Language Models

Guanting Dong, Keming Lu, Chengpeng Li, Tingyu Xia, Bowen Yu, Chang Zhou, Jingren Zhou
Self-play mit Ausführungsrückmeldung: Verbesserung der Anweisungsbefolgungsfähigkeiten von Large Language Models
Abstract

Ein zentrales Vermögen großer Sprachmodelle (LLMs) besteht darin, natürlichsprachliche Anweisungen zu befolgen. Doch das Problem, hochwertige Trainingsdaten automatisch zu generieren, um die komplexen Fähigkeiten zur Anweisungsbeachtung von LLMs ohne manuelle Annotation zu verbessern, bleibt weiterhin ungelöst. In diesem Paper stellen wir AutoIF vor – die erste skalierbare und zuverlässige Methode zur automatischen Generierung von Anweisungsfolge-Trainingsdaten. AutoIF transformiert die Validierung der Qualität von Anweisungsfolge-Daten in Code-Verifikation: Hierbei müssen LLMs Anweisungen generieren, den entsprechenden Code zur Überprüfung der Richtigkeit der Anweisungsantworten erstellen sowie Einheitstestbeispiele liefern, um die Korrektheit des Codes zu verifizieren. Anschließend ermöglicht eine Rückmeldungs-basierte Ablehnungsstichprobe die Erzeugung von Daten für die Supervised Fine-Tuning (SFT) und Reinforcement Learning from Human Feedback (RLHF)-Trainingsprozesse. AutoIF erzielt signifikante Verbesserungen bei drei Trainingsalgorithmen – SFT, Offline DPO und Online DPO –, wenn sie auf die führenden Open-Source-LLMs, Qwen2 und LLaMA3, in Szenarien der Selbst-Ausrichtung und der stark-zu-schwach-Verstärkung (strong-to-weak distillation) angewendet wird. Unser Quellcode ist öffentlich verfügbar unter https://github.com/QwenLM/AutoIF.

Self-play mit Ausführungsrückmeldung: Verbesserung der Anweisungsbefolgungsfähigkeiten von Large Language Models | Neueste Forschungsarbeiten | HyperAI