Command Palette
Search for a command to run...
Des pixels aux mots – Vers des primitives vision-langage natives à grande échelle
Haiwen Diao Mingxuan Li Silei Wu Linjun Dai Xiaohua Wang Hanming Deng Lewei Lu Dahua Lin Ziwei Liu

Résumé
L’édifice des modèles vision-langage natifs (VLM) est apparu comme un concurrent émergent des VLM modulaires classiques, façonné par l’évolution des architectures de modèles et des paradigmes d’entraînement. Pourtant, deux ombres persistent, freinant leur exploration et leur diffusion généralisée : (i) quelles contraintes fondamentales distinguent les VLM natifs des modèles modulaires, et dans quelle mesure ces obstacles peuvent-ils être surmontés ? (ii) Comment rendre la recherche sur les VLM natifs plus accessible et démocratisée, afin d’accélérer l’avancement du domaine ? Dans cet article, nous clarifions ces défis et proposons des principes directeurs pour la construction de VLM natifs. Plus précisément, une primitive fondamentale de VLM natif devrait : (i) aligner efficacement les représentations pixellisées et lexicales dans un espace sémantique commun ; (ii) intégrer sans heurt les forces des modules vision et langage autrefois séparés ; (iii) intégrer de manière intrinsèque diverses propriétés intermodales permettant une encodage, un alignement et un raisonnement unifiés vision-langage. Ainsi, nous introduisons NEO, une nouvelle famille de VLM natifs fondée sur des principes premiers, capable de rivaliser avec les meilleurs modèles modulaires dans divers scénarios du monde réel. Avec seulement 390 millions d’exemples image-texte, NEO développe efficacement la perception visuelle dès le départ, tout en atténuant les conflits entre vision et langage au sein d’un modèle dense et monolithique construit à partir de primitives soigneusement conçues. Nous positionnons NEO comme une pierre angulaire pour des VLM natifs évolutifs et puissants, accompagnés d’un ensemble riche de composants réutilisables, favorisant ainsi un écosystème à faible coût et facilement extensible. Nos codes et modèles sont disponibles publiquement à l’adresse suivante : https://github.com/EvolvingLMMs-Lab/NEO.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.