OpenChat: Fortschritte bei Open-Source-Sprachmodellen durch Daten mit gemischter Qualität

Heutzutage sind Open-Source-Größensprachmodelle wie LLaMA aufgetreten. In jüngster Zeit wurden Supervised Fine-Tuning (SFT) und Reinforcement Learning Fine-Tuning (RLFT) integriert, um diese Modelle menschlichen Zielen anzupassen. Allerdings behandeln SFT-Methoden alle Trainingsdaten – unabhängig von ihrer Qualität – gleichwertig, während RLFT-Methoden hochwertige Paar- oder Rangordnungspräferenzdaten erfordern. In dieser Studie stellen wir einen neuartigen Rahmen namens OpenChat vor, um Open-Source-Sprachmodelle mit Daten unterschiedlicher Qualität weiterzuentwickeln. Konkret betrachten wir allgemeine SFT-Trainingsdaten, die aus einer geringen Menge an Expertendaten bestehen, die mit einem großen Anteil suboptimaler Daten vermischt sind, ohne jegliche Präferenzlabels. Wir schlagen C-RLFT (Conditioned Reinforcement Learning Fine-Tuning) vor, bei dem verschiedene Datensätze als grobkörnige Belohnungslabels angesehen und eine klassenbedingte Politik gelernt wird, um die komplementären Informationen zur Datenqualität zu nutzen. Interessanterweise kann die optimale Politik in C-RLFT einfach durch einstufiges, RL-freies Supervised Learning gelöst werden, was leichtgewichtig ist und teure menschliche Präferenzannotierungen vermeidet. In umfangreichen Experimenten an drei Standardbenchmarks erreicht unser mit C-RLFT fine-tuntes OpenChat-13b die höchste durchschnittliche Leistung unter allen 13b-Open-Source-Sprachmodellen. Zudem validieren wir die Generalisierungsfähigkeit des Modells mittels AGIEval, bei dem lediglich OpenChat-13b die Leistung des Basismodells übertrifft. Schließlich führen wir eine Reihe von Analysen durch, um die Wirksamkeit und Robustheit von OpenChat zu erläutern. Unsere Code-, Daten- und Modellressourcen sind öffentlich verfügbar unter https://github.com/imoneoi/openchat und https://huggingface.co/openchat.