HyperAIHyperAI

Command Palette

Search for a command to run...

Zephyr: Direkte Destillation der LM-Ausrichtung

Zusammenfassung

Unser Ziel ist es, ein kleineres Sprachmodell zu entwickeln, das an die Benutzerabsicht angepasst ist. Frühere Studien haben gezeigt, dass die Anwendung von distilliertem überwachtem Feinabstimmung (dSFT) auf größere Modelle die Aufgabenaccuracy erheblich verbessert; jedoch sind diese Modelle nicht angepasst, d.h. sie reagieren nicht gut auf natürliche Aufforderungen. Um diese Eigenschaft zu destillieren, experimentieren wir mit der Verwendung von Präferenzdaten aus künstlicher Intelligenz Feedback (KIF). Ausgehend von einem Datensatz von Ausgaben, die durch ein Lehrermodell nach Rangfolge sortiert wurden, wenden wir distillierte direkte Präferenzoptimierung (dDPO) an, um ein Chatmodell zu lernen, das eine erheblich verbesserte Absichtsanpassung aufweist. Der Ansatz erfordert nur wenige Stunden des Trainings ohne zusätzliches Sampling während der Feinabstimmung. Das endgültige Ergebnis, Zephyr-7B, setzt den Stand der Technik bei Chat-Benchmarks für Modelle mit 7 Milliarden Parametern und benötigt keine menschliche Annotation. Insbesondere zeigen die Ergebnisse des MT-Benchmarks, dass Zephyr-7B Llama2-Chat-70B übertreffen kann, das beste offene RLHF-basierte Modell. Der Quellcode, die Modelle, die Daten und Tutorials für das System sind unter https://github.com/huggingface/alignment-handbook verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp