il y a 4 mois

Résumé

L’édifice des modèles vision-langage natifs (VLM) est apparu comme un concurrent émergent des VLM modulaires classiques, façonné par l’évolution des architectures de modèles et des paradigmes d’entraînement. Pourtant, deux ombres persistent, freinant leur exploration et leur diffusion généralisée : (i) quelles contraintes fondamentales distinguent les VLM natifs des modèles modulaires, et dans quelle mesure ces obstacles peuvent-ils être surmontés ? (ii) Comment rendre la recherche sur les VLM natifs plus accessible et démocratisée, afin d’accélérer l’avancement du domaine ? Dans cet article, nous clarifions ces défis et proposons des principes directeurs pour la construction de VLM natifs. Plus précisément, une primitive fondamentale de VLM natif devrait : (i) aligner efficacement les représentations pixellisées et lexicales dans un espace sémantique commun ; (ii) intégrer sans heurt les forces des modules vision et langage autrefois séparés ; (iii) intégrer de manière intrinsèque diverses propriétés intermodales permettant une encodage, un alignement et un raisonnement unifiés vision-langage. Ainsi, nous introduisons NEO, une nouvelle famille de VLM natifs fondée sur des principes premiers, capable de rivaliser avec les meilleurs modèles modulaires dans divers scénarios du monde réel. Avec seulement 390 millions d’exemples image-texte, NEO développe efficacement la perception visuelle dès le départ, tout en atténuant les conflits entre vision et langage au sein d’un modèle dense et monolithique construit à partir de primitives soigneusement conçues. Nous positionnons NEO comme une pierre angulaire pour des VLM natifs évolutifs et puissants, accompagnés d’un ensemble riche de composants réutilisables, favorisant ainsi un écosystème à faible coût et facilement extensible. Nos codes et modèles sont disponibles publiquement à l’adresse suivante : https://github.com/EvolvingLMMs-Lab/NEO.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 4 mois

Multimodal

Représentation Multimodale

Haiwen Diao Mingxuan Li Silei Wu Linjun Dai Xiaohua Wang Hanming Deng Lewei Lu Dahua Lin Ziwei Liu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 4 mois

Multimodal

Représentation Multimodale

Haiwen Diao Mingxuan Li Silei Wu Linjun Dai Xiaohua Wang Hanming Deng Lewei Lu Dahua Lin Ziwei Liu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Des pixels aux mots – Vers des primitives vision-langage natives à grande échelle | Articles | HyperAI

Command Palette

Des pixels aux mots – Vers des primitives vision-langage natives à grande échelle

Haiwen Diao Mingxuan Li Silei Wu Linjun Dai Xiaohua Wang Hanming Deng Lewei Lu Dahua Lin Ziwei Liu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Des pixels aux mots – Vers des primitives vision-langage natives à grande échelle

Haiwen Diao Mingxuan Li Silei Wu Linjun Dai Xiaohua Wang Hanming Deng Lewei Lu Dahua Lin Ziwei Liu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Des pixels aux mots – Vers des primitives vision-langage natives à grande échelle

Haiwen Diao Mingxuan Li Silei Wu Linjun Dai Xiaohua Wang Hanming Deng Lewei Lu Dahua Lin Ziwei Liu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters