HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 16 jours

Des pixels aux mots – Vers des primitives vision-langage natives à grande échelle

Haiwen Diao Mingxuan Li Silei Wu Linjun Dai Xiaohua Wang Hanming Deng Lewei Lu Dahua Lin Ziwei Liu

Des pixels aux mots – Vers des primitives vision-langage natives à grande échelle

Résumé

L’édifice des modèles vision-langage natifs (VLM) est apparu comme un concurrent émergent des VLM modulaires classiques, façonné par l’évolution des architectures de modèles et des paradigmes d’entraînement. Pourtant, deux ombres persistent, freinant leur exploration et leur diffusion généralisée : (i) quelles contraintes fondamentales distinguent les VLM natifs des modèles modulaires, et dans quelle mesure ces obstacles peuvent-ils être surmontés ? (ii) Comment rendre la recherche sur les VLM natifs plus accessible et démocratisée, afin d’accélérer l’avancement du domaine ? Dans cet article, nous clarifions ces défis et proposons des principes directeurs pour la construction de VLM natifs. Plus précisément, une primitive fondamentale de VLM natif devrait : (i) aligner efficacement les représentations pixellisées et lexicales dans un espace sémantique commun ; (ii) intégrer sans heurt les forces des modules vision et langage autrefois séparés ; (iii) intégrer de manière intrinsèque diverses propriétés intermodales permettant une encodage, un alignement et un raisonnement unifiés vision-langage. Ainsi, nous introduisons NEO, une nouvelle famille de VLM natifs fondée sur des principes premiers, capable de rivaliser avec les meilleurs modèles modulaires dans divers scénarios du monde réel. Avec seulement 390 millions d’exemples image-texte, NEO développe efficacement la perception visuelle dès le départ, tout en atténuant les conflits entre vision et langage au sein d’un modèle dense et monolithique construit à partir de primitives soigneusement conçues. Nous positionnons NEO comme une pierre angulaire pour des VLM natifs évolutifs et puissants, accompagnés d’un ensemble riche de composants réutilisables, favorisant ainsi un écosystème à faible coût et facilement extensible. Nos codes et modèles sont disponibles publiquement à l’adresse suivante : https://github.com/EvolvingLMMs-Lab/NEO.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Des pixels aux mots – Vers des primitives vision-langage natives à grande échelle | Articles de recherche | HyperAI