RedOne 2.0: Neubewertung der domain-spezifischen Nachschulung von LLMs in sozialen Netzwerken

Abstract
Als zentrales Medium für menschliche Interaktion und Informationsaustausch stellen soziale Netzwerkdienste (SNS) für große Sprachmodelle (LLMs) besondere Herausforderungen dar: heterogene Workloads, rasch wechselnde Normen und Umgangssprache sowie mehrsprachige, kulturell vielfältige Korpora, die zu starken Verteilungsverschiebungen führen. Supervised Fine-Tuning (SFT) kann Modelle spezialisieren, führt jedoch oft zu einem „Seesaw-Effekt“ zwischen Verbesserungen innerhalb der Verteilung und Robustheit außerhalb der Verteilung, insbesondere bei kleineren Modellen. Um diesen Herausforderungen zu begegnen, stellen wir RedOne 2.0 vor – ein auf SNS ausgerichtetes LLM, das mit einem fortschreitenden, auf RL priorisierten Nachtrainingsparadigma trainiert wurde, um eine schnelle und stabile Anpassung zu ermöglichen. Der Pipeline-Prozess gliedert sich in drei Stufen: (1) Explorative Lernphase auf sorgfältig ausgewählten SNS-Korpora, um eine erste Ausrichtung zu erreichen und systematische Schwächen zu identifizieren; (2) gezieltes Fine-Tuning, bei dem SFT selektiv auf diagnostizierte Lücken angewendet wird, während ein geringer Anteil allgemeiner Daten gemischt wird, um das Verlernen zu reduzieren; und (3) Nachverfeinerung durch RL, bei der SNS-orientierte Signale erneut eingesetzt werden, um Verbesserungen zu konsolidieren und die Trade-offs zwischen den Aufgaben zu harmonisieren. In verschiedenen Aufgaben über drei Kategorien hinweg erreicht unser 4B-Modell im Durchschnitt eine Verbesserung um etwa 2,41 gegenüber dem 7B-Modell, das als suboptimaler Baseline dient. Zudem erzielt RedOne 2.0 im Vergleich zum Basismodell durchschnittlich eine Leistungssteigerung um etwa 8,74, wobei weniger als die Hälfte der Daten erforderlich sind, die ein SFT-orientiertes Verfahren wie RedOne benötigt – ein klarer Beweis für überlegene Daten-Effizienz und Stabilität bei kompakten Modellgrößen. Insgesamt etabliert RedOne 2.0 eine wettbewerbsfähige, kosteneffiziente Basis für domain-spezifische LLMs im SNS-Kontext und erweitert die Fähigkeiten ohne Einbußen an Robustheit.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.