LLaVA-OneVision : Transfert de Tâches Visuelles Simplifié

Nous présentons LLaVA-OneVision, une famille de grands modèles multimodaux ouverts (LMM) développés en consolidant nos observations sur les données, les modèles et les représentations visuelles dans la série de blogs LLaVA-NeXT. Nos résultats expérimentaux montrent que LLaVA-OneVision est le premier modèle unique capable de repousser simultanément les limites des performances des LMM ouverts dans trois scénarios importants de la vision par ordinateur : scénario d'image unique, scénario d'images multiples et scénario vidéo. Importamment, la conception de LLaVA-OneVision permet un apprentissage par transfert robuste entre différentes modalités/scénarios, engendrant ainsi de nouvelles capacités émergentes. En particulier, une compréhension vidéo solide et des capacités inter-scénarios sont démontrées par le transfert de tâches des images aux vidéos.