HyperAIHyperAI

Command Palette

Search for a command to run...

LLaVA-OneVision : Transfert facile des tâches visuelles

Bo Li Yuanhan Zhang Dong Guo Renrui Zhang Feng Li Hao Zhang Kaichen Zhang Yanwei Li Ziwei Liu Chunyuan Li

Résumé

Nous présentons LLaVA-OneVision, une famille de modèles multimodaux grands ouverts (LMM) développés en consolidant nos réflexions sur les données, les modèles et les représentations visuelles, issues de la série de billets LLaVA-NeXT. Nos résultats expérimentaux démontrent que LLaVA-OneVision est le premier modèle unique capable d’atteindre simultanément les limites de performance des LMM ouverts dans trois scénarios importants de vision par ordinateur : scénarios à image unique, scénarios multi-images et scénarios vidéo. De manière significative, la conception de LLaVA-OneVision permet un apprentissage par transfert fort entre différentes modalités ou scénarios, donnant naissance à de nouvelles capacités émergentes. En particulier, une compréhension vidéo puissante et des capacités de transfert inter-scénarios sont démontrées par le transfert de tâches d’images vers des vidéos.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
LLaVA-OneVision : Transfert facile des tâches visuelles | Articles | HyperAI