HyperAI

Des chercheurs de l’Université Brown ont récemment démontré qu’un simple ajustement des couches d’entrée (les embeddings d’entrée) d’un grand modèle linguistique (LLM) suffit à lui conférer des performances de raisonnement abstrait quasi parfaites, remettant en question les hypothèses courantes sur les limites cognitives de ces modèles. Ce travail, qui a suscité un intérêt croissant dans la communauté scientifique, s’inscrit dans un débat central en intelligence artificielle : les LLM possèdent-ils réellement une capacité de raisonnement abstrait, considérée comme un pilier de l’intelligence générale et flexible ? Jusqu’à présent, plusieurs études ont conclu que les LLM échouent dans des tâches complexes telles que le raisonnement visuel, analogique ou quantitatif, interprétant ces échecs comme une preuve de leur incapacité à raisonner de manière abstraite. Cependant, cette recherche réexamine rigoureusement ces conclusions. En reproduisant fidèlement les expériences de Gendron et al. (2024), les chercheurs confirment que les LLM pré-entraînés, sans aucune adaptation, se montrent peu performants sur ces tâches. Mais une découverte majeure suit : en ne micro-ajustant que les couches d’entrée (en maintenant les blocs Transformer entièrement gelés), les performances augmentent de manière spectaculaire — atteignant parfois des résultats parfaits, comparables à ceux obtenus par une micro-ajustement complet du modèle. Ce phénomène n’est pas limité au traitement du langage. Dans des tâches de raisonnement visuel, une simple adaptation du encodeur visuel sur le domaine cible, combinée à un LLM pré-entraîné gelé, permet d’obtenir des performances exceptionnelles. Ces résultats suggèrent que la capacité de raisonnement abstrait des LLM est largement présente, mais qu’elle ne peut être pleinement exploitée que si les entrées sont correctement adaptées à la tâche. Autrement dit, le vrai défi n’est pas de modifier le modèle lui-même, mais de concevoir des représentations d’entrée efficaces. Cette découverte soulève une question fondamentale : qu’est-ce qu’un « raisonneur abstrait » ? Et pourquoi cette question importe-t-elle ? Les auteurs argumentent que la réponse dépend de nos motivations : cherchons-nous à comprendre si les LLM imitent la pensée humaine (auquel cas on devrait éviter tout ajustement), ou visons-nous à construire des systèmes plus efficaces et pratiques (auquel cas l’ajustement est justifié) ? Ces deux objectifs, bien que liés, exigent des cadres expérimentaux distincts. Le travail a reçu un accueil très favorable de la part des responsables de domaine et des relecteurs, qui ont salué sa rigueur, sa pertinence et sa profondeur conceptuelle. Un relecteur a notamment noté que l’étude « remet en cause une opinion dominante en montrant qu’un ajustement minimal à l’entrée peut produire des performances quasi parfaites ». Le responsable de domaine a souligné que cette découverte pourrait avoir un impact durable sur la recherche future, notamment en matière de modularité et de transfert de connaissances. Les implications pratiques sont nombreuses : réduction drastique des coûts de calcul pour l’adaptation des modèles, déploiement plus rapide sur des dispositifs à ressources limitées (mobiles, systèmes embarqués), et conception de systèmes multimodaux unifiés reposant sur des espaces d’embedding partagés. À long terme, cette approche pourrait transformer notre compréhension de la généralisation en IA, en rendant les systèmes plus modulaires, réutilisables et efficaces. Le projet a commencé par l’exploration de méthodes de planification contextuelle pour faire raisonner les LLM dans des environnements simulés, mais a été redirigé vers des tâches de raisonnement visuel en raison des contraintes de ressources. L’accent s’est alors porté sur deux questions clés : quelle est la meilleure représentation visuelle pour le raisonnement ? Et peut-on simplifier l’architecture sans sacrifier les performances ? L’idée de s’appuyer sur des représentations centrées sur les objets s’est avérée très prometteuse. En adoptant une architecture inspirée de LLaVA, les chercheurs ont cherché à éviter un micro-ajustement complet. C’est alors que l’hypothèse centrale est née : si le cœur du modèle (les blocs Transformer) est déjà un bon raisonneur, pourquoi ne pas l’adapter uniquement à l’entrée ? Cette idée, testée avec succès, a été validée dans des tâches textuelles et visuelles. Un moment marquant a été la découverte que le micro-ajustement du encodeur visuel n’offrait pas la généralisation attendue — une surprise qui a conduit à la réorientation vers l’ajustement des embeddings d’entrée, une piste finalement fructueuse. Le principal auteur, Yun Tian, doctorant en informatique à Brown, encadré par les professeurs Chen Sun et Ellie Pavlick, a un parcours solide en apprentissage multimodal et en interprétabilité des modèles. Il a récemment collaboré avec Meta et Hengduo Li, et prévoit de publier son travail sur arXiv ainsi que de le rendre open source. Son parcours inclut un baccalauréat en informatique et statistique à Wake Forest University, suivi d’un master à Brown. Il a également travaillé à Google Research, en collaboration avec Bo Pang et Ashish Thapliyal.

Liens associés

Liens associés

Liens associés

ByteDance Met En Open Source Lance, Un Modèle 3B Englobant La Compréhension, La Génération Et l'édition ; l'Université Nationale De Singapour Propose l'ensemble De Données ViMU : Couvrant 588 Vidéos Et Des Réponses À Des Questions Non verbales.

ByteDance Met En Open Source Lance, Un Modèle 3B Englobant La Compréhension, La Génération Et l'édition ; l'Université Nationale De Singapour Propose l'ensemble De Données ViMU : Couvrant 588 Vidéos Et Des Réponses À Des Questions Non verbales.

Command Palette

微调输入嵌入，大模型推理能力突飞猛进：布朗大学新研究颠覆对LLM抽象推理的固有认知

Liens associés

Command Palette

微调输入嵌入，大模型推理能力突飞猛进：布朗大学新研究颠覆对LLM抽象推理的固有认知

Liens associés

Command Palette

微调输入嵌入，大模型推理能力突飞猛进：布朗大学新研究颠覆对LLM抽象推理的固有认知

Liens associés

ByteDance Met En Open Source Lance, Un Modèle 3B Englobant La Compréhension, La Génération Et l'édition ; l'Université Nationale De Singapour Propose l'ensemble De Données ViMU : Couvrant 588 Vidéos Et Des Réponses À Des Questions Non verbales.

ByteDance Met En Open Source Lance, Un Modèle 3B Englobant La Compréhension, La Génération Et l'édition ; l'Université Nationale De Singapour Propose l'ensemble De Données ViMU : Couvrant 588 Vidéos Et Des Réponses À Des Questions Non verbales.