vor 24 Tagen

SAIL-VL2 Technischer Bericht

Weijie Yin, Yongjie Ye, Fangxun Shu, Yue Liao, Zijian Kang, Hongyuan Dong, Haiyang Yu, Dingkang Yang, Jiacong Wang, Han Wang, Wenzhuo Liu, Xiao Liang, Shuicheng Yan, Chao Feng

Details der Forschungsarbeit anzeigen

Abstract

Wir stellen SAIL-VL2 vor, ein offenes, umfassendes Vision-Sprache-Grundmodell (LVM) für eine umfassende multimodale Wahrnehmung und Schlussfolgerung. Als Nachfolger von SAIL-VL erreicht SAIL-VL2 bei 2B- und 8B-Parameter-Skalen führende Leistung auf einer Vielzahl von Bild- und Videobenchmarks und demonstriert starke Fähigkeiten, die von feinabgestimmter Wahrnehmung bis hin zu komplexer Inferenz reichen. Drei zentrale Innovationen treiben dessen Effektivität voran. Erstens verfügt das Modell über eine großskalige Datenreinigungs-Pipeline mit Bewertungs- und Filterstrategien, die die Qualität und Verteilung von Daten im Bereich von Bildunterschriften, OCR, Frage-Antwort-Aufgaben und Videodaten verbessert und somit die Trainingseffizienz steigert. Zweitens setzt ein fortschreitendes Trainingsframework an einem leistungsfähigen vortrainierten Vision-Encoder (SAIL-ViT) an, durchläuft eine multimodale Vortrainingsphase und mündet schließlich in eine Denk-Fusions-SFT-RL-Hybrid-Paradigma, das die Modellfähigkeiten systematisch stärkt. Drittens erweitern architektonische Fortschritte die Leistung über dichte große Sprachmodelle hinaus hin zu effizienten, sparsamen Mixture-of-Experts-(MoE)-Architekturen. Mit diesen Beiträgen zeigt SAIL-VL2 wettbewerbsfähige Ergebnisse auf 106 Datensätzen und erzielt führende Ergebnisse auf anspruchsvollen Schlussfolgerungsbenchmarks wie MMMU und MathVista. Zudem erreicht SAIL-VL2-2B auf der OpenCompass-Rangliste den ersten Platz unter offiziell veröffentlichten Open-Source-Modellen innerhalb der 4B-Parameter-Skala und fungiert gleichzeitig als effiziente und erweiterbare Grundlage für die Open-Source-Multimodal-Community.