HyperAI
il y a 15 jours

Rapport technique Ovis-U1

Guo-Hua Wang, Shanshan Zhao, Xinjie Zhang, Liangfu Cao, Pengxin Zhan, Lunhao Duan, Shiyin Lu, Minghao Fu, Xiaohao Chen, Jianshan Zhao, Yang Li, Qing-Guo Chen
Rapport technique Ovis-U1
Résumé

Dans ce rapport, nous présentons Ovis-U1, un modèle unifié de 3 milliards de paramètres qui intègre la compréhension multimodale, la génération d'images à partir de texte et les capacités d'édition d'images. S'appuyant sur la base de la série Ovis, Ovis-U1 incorpore un décodeur visuel basé sur une diffusion couplé à un raffineur bidirectionnel de jetons, permettant des tâches de génération d'images comparables aux modèles de pointe comme GPT-4o. Contrairement à certains modèles précédents qui utilisent un MLLM figé pour les tâches de génération, Ovis-U1 utilise une nouvelle approche d'entraînement unifiée partant d'un modèle linguistique. Comparativement à l'entraînement exclusif sur des tâches de compréhension ou de génération, l'entraînement unifié offre de meilleures performances, démontrant l'amélioration obtenue par l'intégration de ces deux tâches. Ovis-U1 obtient un score de 69,6 sur le benchmark multimodal académique OpenCompass, surpassant les modèles récents d'avant-garde tels que Ristretto-3B et SAIL-VL-1.5-2B. En matière de génération d'images à partir de texte, il se distingue avec des scores de 83,72 et 0,89 sur les benchmarks DPG-Bench et GenEval, respectivement. Pour l'édition d'images, il atteint des scores de 4,00 et 6,42 sur les benchmarks ImgEdit-Bench et GEdit-Bench-EN, respectivement. En tant que première version de la série des modèles unifiés Ovis, Ovis-U1 repousse les limites de la compréhension multimodale, de la génération et de l'édition d'images.