HyperAIHyperAI
vor 18 Tagen

Skywork UniPic: Einheitliches autoregressives Modellierungsansatz für visuelles Verständnis und Generierung

Peiyu Wang, Yi Peng, Yimeng Gan, Liang Hu, Tianyidan Xie, Xiaokun Wang, Yichen Wei, Chuanxin Tang, Bo Zhu, Changshi Li, Hongyang Wei, Eric Li, Xuchen Song, Yang Liu, Yahui Zhou
Skywork UniPic: Einheitliches autoregressives Modellierungsansatz für visuelles Verständnis und Generierung
Abstract

Wir stellen Skywork UniPic vor, ein autoregressives Modell mit 1,5 Milliarden Parametern, das die Bildverstehbarkeit, Text-zu-Bild-Generierung und Bildbearbeitung in einer einzigen Architektur vereint – wodurch der Einsatz von aufgabe-spezifischen Adaptern oder zwischenmodulären Verbindungen entfällt – und zeigen, dass kompakte multimodale Systeme auf gängiger Hardware eine state-of-the-art-Leistung erzielen können. Skywork UniPic erreicht einen GenEval-Score von 0,86 und übertrifft damit die meisten bestehenden einheitlichen Modelle; setzt eine neue Bestmarke auf dem DPG-Bench für komplexe Generierung mit 85,5; erzielt 5,83 auf GEditBench-EN und 3,49 auf ImgEdit-Bench bei der Bildbearbeitung; sowie die Generierung von Bildern mit der Auflösung 1024 × 1024 mit weniger als 15 GB GPU-Speicher (z. B. RTX 4090). Die Leistung wird ermöglicht durch (1) eine entkoppelte Kodierungsstrategie, die einen maskierten autoregressiven Encoder für die Synthese und einen SigLIP2-Encoder für das Verständnis nutzt, beide speisen einen gemeinsamen autoregressiven Decoder; (2) ein fortschreitendes, auflösungsorientiertes Trainingsverfahren, das von 256 × 256 auf 1024 × 1024 skaliert und dabei dynamisch Parameter freigibt, um Kapazität und Stabilität zu balancieren; sowie (3) sorgfältig zusammengestellte Datensätze im Umfang von 100 Millionen, die durch aufgabe-spezifische Belohnungsmodelle ergänzt wurden, um die Ziele der Generierung und Bearbeitung zu verfeinern. Indem gezeigt wird, dass eine hochwertige multimodale Integration nicht zwangsläufig extrem hohe Ressourcenanforderungen mit sich bringt, etabliert Skywork UniPic ein praktikables Paradigma für einsetzbare, hochwertige multimodale KI. Der Quellcode und die Modellgewichte sind öffentlich unter https://huggingface.co/Skywork/Skywork-UniPic-1.5B verfügbar.