Command Palette
Search for a command to run...
LLaVA-OneVision : Transfert facile des tâches visuelles
LLaVA-OneVision : Transfert facile des tâches visuelles
Bo Li Yuanhan Zhang Dong Guo Renrui Zhang Feng Li Hao Zhang Kaichen Zhang Yanwei Li Ziwei Liu Chunyuan Li
Résumé
Nous présentons LLaVA-OneVision, une famille de modèles multimodaux grands ouverts (LMM) développés en consolidant nos réflexions sur les données, les modèles et les représentations visuelles, issues de la série de billets LLaVA-NeXT. Nos résultats expérimentaux démontrent que LLaVA-OneVision est le premier modèle unique capable d’atteindre simultanément les limites de performance des LMM ouverts dans trois scénarios importants de vision par ordinateur : scénarios à image unique, scénarios multi-images et scénarios vidéo. De manière significative, la conception de LLaVA-OneVision permet un apprentissage par transfert fort entre différentes modalités ou scénarios, donnant naissance à de nouvelles capacités émergentes. En particulier, une compréhension vidéo puissante et des capacités de transfert inter-scénarios sont démontrées par le transfert de tâches d’images vers des vidéos.