HyperAIHyperAI

Command Palette

Search for a command to run...

OpenChat: Fortschritte bei Open-Source-Sprachmodellen durch Daten mit gemischter Qualität

Guan Wang Sijie Cheng Xianyuan Zhan Xiangang Li Sen Song Yang Liu

Zusammenfassung

Heutzutage sind Open-Source-Größensprachmodelle wie LLaMA aufgetreten. In jüngster Zeit wurden Supervised Fine-Tuning (SFT) und Reinforcement Learning Fine-Tuning (RLFT) integriert, um diese Modelle menschlichen Zielen anzupassen. Allerdings behandeln SFT-Methoden alle Trainingsdaten – unabhängig von ihrer Qualität – gleichwertig, während RLFT-Methoden hochwertige Paar- oder Rangordnungspräferenzdaten erfordern. In dieser Studie stellen wir einen neuartigen Rahmen namens OpenChat vor, um Open-Source-Sprachmodelle mit Daten unterschiedlicher Qualität weiterzuentwickeln. Konkret betrachten wir allgemeine SFT-Trainingsdaten, die aus einer geringen Menge an Expertendaten bestehen, die mit einem großen Anteil suboptimaler Daten vermischt sind, ohne jegliche Präferenzlabels. Wir schlagen C-RLFT (Conditioned Reinforcement Learning Fine-Tuning) vor, bei dem verschiedene Datensätze als grobkörnige Belohnungslabels angesehen und eine klassenbedingte Politik gelernt wird, um die komplementären Informationen zur Datenqualität zu nutzen. Interessanterweise kann die optimale Politik in C-RLFT einfach durch einstufiges, RL-freies Supervised Learning gelöst werden, was leichtgewichtig ist und teure menschliche Präferenzannotierungen vermeidet. In umfangreichen Experimenten an drei Standardbenchmarks erreicht unser mit C-RLFT fine-tuntes OpenChat-13b die höchste durchschnittliche Leistung unter allen 13b-Open-Source-Sprachmodellen. Zudem validieren wir die Generalisierungsfähigkeit des Modells mittels AGIEval, bei dem lediglich OpenChat-13b die Leistung des Basismodells übertrifft. Schließlich führen wir eine Reihe von Analysen durch, um die Wirksamkeit und Robustheit von OpenChat zu erläutern. Unsere Code-, Daten- und Modellressourcen sind öffentlich verfügbar unter https://github.com/imoneoi/openchat und https://huggingface.co/openchat.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp