HyperAI
vor 16 Tagen

Skywork-R1V3 Technischer Bericht

Wei Shen; Jiangbo Pei; Yi Peng; Xuchen Song; Yang Liu; Jian Peng; Haofeng Sun; Yunzhuo Hao; Peiyu Wang; Yahui Zhou
Skywork-R1V3 Technischer Bericht
Abstract

Wir stellen Skywork-R1V3 vor, ein fortschrittliches, quelloffenes Modell für visuelle Sprachverarbeitung (VLM), das einen neuen Ansatz für visuelles Schließen pioniert. Seine wesentliche Innovation besteht darin, die Schließleistungsfähigkeiten von rein textbasierten großen Sprachmodellen (LLMs) effektiv auf visuelle Aufgaben zu übertragen. Die starke Leistung von Skywork-R1V3 stammt hauptsächlich aus unserem ausgeklügelten Post-Training-RL-Framework, das die Schließleistungsfähigkeit des Modells aktiviert und verbessert, ohne zusätzliche Vorabtrainings zu erfordern. Durch dieses Framework können wir zudem die grundlegende Rolle des Verbindungsmoduls bei der Erreichung einer robusten multimodalen Ausrichtung für Multimodalitätsschließmodelle aufdecken. Darüber hinaus führen wir einen einzigartigen Indikator für die Schließleistungsfähigkeit ein: die Entropie kritischer Schließtokens, die sich als äußerst effektiv für die Auswahl von Checkpoints während des RL-Trainings erwiesen hat. Skywork-R1V3 erzielt Spitzenwerte im MMMU-Test, wobei es sich von 64,3 % auf 76,0 % verbessert hat. Diese Leistung entspricht den Fähigkeiten eines Einsteiger-Level-Menschen. Bemerkenswerterweise ermöglicht unser durch RL gestärktes Post-Training-Ansatz auch einem Modell mit 38 Milliarden Parametern, den besten geschlossenen Quellcode-VLMs gleichzukommen. Die Implementierung überträgt mathematische Schlussfolgerungen erfolgreich auf andere fachbezogene Schlussfolgerungsaufgaben. Wir schließen eine Analyse von Curriculum-Learning- und Verstärkungsfeinabstimmungsstrategien sowie eine umfassendere Diskussion über multimodales Schließen ein. Skywork-R1V3 markiert einen bedeutenden Fortschritt in der multimodalen Schlussfolgerung und zeigt RL als mächtige Triebkraft zur Steigerung der Fähigkeiten quellencodeoffener VLMs.