Command Palette
Search for a command to run...
Apprentissage orienté vers l'acquisition : une porte dynamique par jeton pour le modélisation vision-langage à faibles ressources
Bianca-Mihaela Ganescu Suchir Salhan Andrew Caines Paula Buttery

Résumé
Former des modèles vision-langage sur des quantités de données plausibles du point de vue cognitif exige une réflexion nouvelle sur la manière dont ces modèles intègrent les informations multimodales. Dans le cadre des contraintes de la piste Vision du BabyLM Challenge 2025, nous proposons une architecture légère à base de décodeur comprenant : (1) une porte dynamique par jeton pour une fusion adaptative des indices linguistiques et visuels, (2) une modulation de caractéristiques et une attention sur les canaux afin de maximiser l’utilité des informations visuelles limitées, et (3) des objectifs contrastifs auxiliaires pour le repérage visuel. Les évaluations sur cinq benchmarks (BLiMP, BLiMP Supplement, EWoK, Winoground et VQA) montrent des performances compétitives ou supérieures par rapport aux modèles multimodaux de référence. Plus remarquablement, notre porte dynamique découvre des motifs interprétables sans supervision explicite, privilégiant les indices visuels pour les mots de contenu et les indices linguistiques pour les mots fonctionnels. Bien que nous identifiions certaines limites imposées par les contraintes du Challenge — notamment le goulot d’étranglement d’information causé par les embeddings d’image globaux et l’instabilité d’entraînement due à la répartition des données — nos résultats établissent la porte dynamique comme un outil puissant pour l’apprentissage multimodal efficace, offrant à la fois interprétabilité et performance, même sous des contraintes sévères.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.