Skywork-Reward-V2: Skalierung der Präferenzdaten-Kuration durch menschliche-AI-Synergie

Trotz der entscheidenden Rolle von Belohnungsmodellen (RMs) im Reinforcement Learning durch menschliches Feedback (RLHF) erzielen aktuelle erstklassige offene RMs auf den meisten existierenden Bewertungsbenchmark-Tests schlechte Ergebnisse und scheitern daran, das Spektrum fein abgestimmter und komplexer menschlicher Präferenzen zu erfassen. Selbst Ansätze, die fortschrittliche Trainingsmethoden einbeziehen, haben keine bedeutenden Leistungsverbesserungen gebracht. Wir vermuten, dass diese Anfälligkeit hauptsächlich von Einschränkungen in den Präferenzdatensätzen herrührt, die oft eng umrissen, synthetisch beschriftet oder ohne strenge Qualitätskontrolle sind. Um diesen Herausforderungen entgegenzukommen, präsentieren wir einen groß angelegten Präferenzdatensatz mit 40 Millionen Präferenzpaaren, den SynPref-40M genannt. Um eine datenbasierte Kuration in großem Maßstab zu ermöglichen, entwickeln wir ein zweistufiges Pipeline-Verfahren zur menschlich-künstlichen Intelligenz-Synergie, das die ergänzenden Stärken der menschlichen Annotationenqualität und der Skalierbarkeit der KI nutzt. In dieser Pipeline liefern Menschen verifizierte Annotationen, während große Sprachmodelle auf Basis menschlicher Anleitung automatische Kuration durchführen. Durch das Training auf diesem Präferenzmix stellen wir Skywork-Reward-V2 vor, eine Suite von acht Belohnungsmodellen mit Parameteranzahlen zwischen 0,6 Milliarden und 8 Milliarden, die auf einer sorgfältig kurierten Teilmenge von 26 Millionen Präferenzpaaren aus SynPref-40M trainiert wurden. Wir zeigen, dass Skywork-Reward-V2 vielseitig ist und über eine breite Palette von Fähigkeiten verfügt, einschließlich der Ausrichtung an menschlichen Präferenzen, objektiver Korrektheit, Sicherheit, Widerstand gegen stilistische Verzerrungen und Skalierung bei Best-of-N-Aufgaben. Es erreicht Spitzenleistungen in sieben wichtigen Benchmark-Tests für Belohnungsmodelle. Abstraktionsstudien bestätigen, dass die Effektivität unseres Ansatzes nicht nur vom Datenvolumen herkommt, sondern auch von der hochwertigen Kuration. Die Skywork-Reward-V2-Reihe stellt einen erheblichen Fortschritt in offenen Belohnungsmodellen dar und hebt das ungenutzte Potenzial bestehender Präferenzdatensätze hervor. Sie zeigt außerdem auf, wie die Synergie zwischen menschlicher und künstlicher Intelligenz-Kuration erheblich höhere Datenqualität ermöglicht.