vor 2 Monaten

Zephyr: Direkte Destillation der LM-Ausrichtung

Tunstall, Lewis ; Beeching, Edward ; Lambert, Nathan ; Rajani, Nazneen ; Rasul, Kashif ; Belkada, Younes ; Huang, Shengyi ; von Werra, Leandro ; Fourrier, Clémentine ; Habib, Nathan ; Sarrazin, Nathan ; Sanseviero, Omar ; Rush, Alexander M. ; Wolf, Thomas

Details der Forschungsarbeit anzeigen

Zephyr: Direkte Destillation der LM-Ausrichtung

Abstract

Unser Ziel ist es, ein kleineres Sprachmodell zu entwickeln, das an die Benutzerabsicht angepasst ist. Frühere Studien haben gezeigt, dass die Anwendung von distilliertem überwachtem Feinabstimmung (dSFT) auf größere Modelle die Aufgabenaccuracy erheblich verbessert; jedoch sind diese Modelle nicht angepasst, d.h. sie reagieren nicht gut auf natürliche Aufforderungen. Um diese Eigenschaft zu destillieren, experimentieren wir mit der Verwendung von Präferenzdaten aus künstlicher Intelligenz Feedback (KIF). Ausgehend von einem Datensatz von Ausgaben, die durch ein Lehrermodell nach Rangfolge sortiert wurden, wenden wir distillierte direkte Präferenzoptimierung (dDPO) an, um ein Chatmodell zu lernen, das eine erheblich verbesserte Absichtsanpassung aufweist. Der Ansatz erfordert nur wenige Stunden des Trainings ohne zusätzliches Sampling während der Feinabstimmung. Das endgültige Ergebnis, Zephyr-7B, setzt den Stand der Technik bei Chat-Benchmarks für Modelle mit 7 Milliarden Parametern und benötigt keine menschliche Annotation. Insbesondere zeigen die Ergebnisse des MT-Benchmarks, dass Zephyr-7B Llama2-Chat-70B übertreffen kann, das beste offene RLHF-basierte Modell. Der Quellcode, die Modelle, die Daten und Tutorials für das System sind unter https://github.com/huggingface/alignment-handbook verfügbar.