Skywork UniPic : Modélisation autoregressive unifiée pour la compréhension visuelle et la génération

Nous présentons Skywork UniPic, un modèle autoregressif de 1,5 milliard de paramètres qui unifie la compréhension d’images, la génération d’images à partir de texte et l’édition d’images au sein d’une seule architecture — éliminant ainsi la nécessité d’adaptateurs spécifiques aux tâches ou de connecteurs intermodulaires — et démontrons que des systèmes multimodaux compacts peuvent atteindre des performances de pointe sur du matériel courant. Skywork UniPic obtient un score GenEval de 0,86, dépassant la plupart des modèles unifiés existants ; établit un nouveau record sur le benchmark DPG-Bench pour la génération complexe, avec un score de 85,5 ; atteint 5,83 sur GEditBench-EN et 3,49 sur ImgEdit-Bench pour l’édition d’images ; et génère des images de résolution 1024 × 1024 avec moins de 15 Go de mémoire GPU (par exemple, RTX 4090). Ces performances s’appuient sur trois innovations clés : (1) une stratégie d’encodage déconnectée, combinant un encodeur autoregressif masqué pour la synthèse et un encodeur SigLIP2 pour la compréhension, alimentant tous deux un décodeur autoregressif partagé ; (2) un plan d’entraînement progressif et sensible à la résolution, qui évolue de 256 × 256 à 1024 × 1024 tout en déverrouillant dynamiquement certains paramètres pour équilibrer capacité et stabilité ; (3) des jeux de données soigneusement curatifs, d’échelle 100 millions, enrichis par des modèles de récompense spécifiques à chaque tâche afin d’affiner les objectifs de génération et d’édition. En démontrant qu’une intégration multimodale de haute fidélité n’a pas besoin de contraindre des ressources prohibitives, Skywork UniPic établit un paradigme pratique pour l’IA multimodale de haute fidélité, prête à être déployée. Le code et les poids du modèle sont disponibles publiquement à l’adresse suivante : https://huggingface.co/Skywork/Skywork-UniPic-1.5B.