HyperAIHyperAI

Command Palette

Search for a command to run...

Skywork UniPic : Modélisation autoregressive unifiée pour la compréhension visuelle et la génération

Résumé

Nous présentons Skywork UniPic, un modèle autoregressif de 1,5 milliard de paramètres qui unifie la compréhension d’images, la génération d’images à partir de texte et l’édition d’images au sein d’une seule architecture — éliminant ainsi la nécessité d’adaptateurs spécifiques aux tâches ou de connecteurs intermodulaires — et démontrons que des systèmes multimodaux compacts peuvent atteindre des performances de pointe sur du matériel courant. Skywork UniPic obtient un score GenEval de 0,86, dépassant la plupart des modèles unifiés existants ; établit un nouveau record sur le benchmark DPG-Bench pour la génération complexe, avec un score de 85,5 ; atteint 5,83 sur GEditBench-EN et 3,49 sur ImgEdit-Bench pour l’édition d’images ; et génère des images de résolution 1024 × 1024 avec moins de 15 Go de mémoire GPU (par exemple, RTX 4090). Ces performances s’appuient sur trois innovations clés : (1) une stratégie d’encodage déconnectée, combinant un encodeur autoregressif masqué pour la synthèse et un encodeur SigLIP2 pour la compréhension, alimentant tous deux un décodeur autoregressif partagé ; (2) un plan d’entraînement progressif et sensible à la résolution, qui évolue de 256 × 256 à 1024 × 1024 tout en déverrouillant dynamiquement certains paramètres pour équilibrer capacité et stabilité ; (3) des jeux de données soigneusement curatifs, d’échelle 100 millions, enrichis par des modèles de récompense spécifiques à chaque tâche afin d’affiner les objectifs de génération et d’édition. En démontrant qu’une intégration multimodale de haute fidélité n’a pas besoin de contraindre des ressources prohibitives, Skywork UniPic établit un paradigme pratique pour l’IA multimodale de haute fidélité, prête à être déployée. Le code et les poids du modèle sont disponibles publiquement à l’adresse suivante : https://huggingface.co/Skywork/Skywork-UniPic-1.5B.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Skywork UniPic : Modélisation autoregressive unifiée pour la compréhension visuelle et la génération | Articles | HyperAI