HyperAIHyperAI

Command Palette

Search for a command to run...

Un pas vers l’intelligence réelle : comment JEPA aide les LLM à vraiment comprendre le langage

Depuis quelques années, les modèles de langage à grande échelle (LLM) ont connu un développement fulgurant, mais un problème fondamental persiste : ils ne comprennent pas réellement le langage, se contentant de prédire des tokens en s’appuyant sur des distributions statistiques. Un exemple frappant est le « curse de l'inversion » : un modèle peut répondre correctement à « L’enfant de A est B », mais échoue lorsqu’on inverse la question, en demandant « Qui sont les parents de B ? » Cela révèle un manque d’abstraction conceptuelle. Même les modèles d’inférence récents, bien qu’efficaces, produisent parfois des raisonnements entièrement erronés tout en aboutissant à la bonne réponse par hasard. Bien que des ajustements techniques puissent pallier ces défauts, ils ne résolvent pas la racine du problème : une faible généralisation dans des scénarios inédits. C’est précisément ce défi que cherche à relever l’équipe du chercheur Huang Hai. Dans une exploration préliminaire, elle a adapté à l’écriture un cadre prometteur issu du domaine visuel : JEPA (Joint Embedding Predictive Architecture). Ce modèle repose sur une idée simple mais puissante : transformer d’abord les éléments bruts (pixels ou mots) en concepts abstraits, puis forcer ces concepts à se prédire mutuellement, garantissant ainsi une cohérence interne. Par exemple, « visage humain » doit mieux prédire « main humaine » que « patte de grenouille ». Cette approche favorise une représentation plus structurée et sémantiquement cohérente. L’équipe a commencé par des tâches bien définies, comme la génération de code (passer d’une description en langage naturel à une expression régulière ou une requête SQL), où les correspondances entre concepts sont claires et symétriques. Elle a ensuite étendu son cadre à des tâches plus générales : prédire le raisonnement à partir d’un problème (GSM8K), deviner une réponse à partir d’une question (NQ-Open), ou anticiper la suite d’un texte (HellaSwag). Les résultats sont prometteurs : une augmentation de plus de 20 points de pourcentage en précision sur certaines tâches, accompagnée d’une meilleure résistance au surapprentissage et d’une robustesse accrue. Un point clé réside dans l’efficacité : initialement, JEPA nécessitait une passe supplémentaire de calcul, doublant la charge. Mais les expériences ont montré qu’en appliquant JEPA seulement sur 25 % des données, la performance restait presque inchangée, tandis que le coût computationnel baissait de 75 %. Cette découverte ouvre la voie à une intégration pratique dans des pipelines existants. Le travail a été accepté par les ateliers NeurIPS UniReps et DL4C, dont les évaluateurs ont souligné trois aspects : la nouveauté, la robustesse et les perspectives d’application. Deux retours ont particulièrement marqué Huang Hai. Premièrement, la conception du « token prédicteur » : au lieu de former un modèle dédié, l’équipe a ajouté simplement un token à la fin du texte, laissant le modèle appliquer naturellement son mécanisme « prédire le suivant ». Cette solution simple a évité le « collapse de mode » — un problème classique — tout en réutilisant les poids pré-entraînés. Deuxièmement, l’analyse de l’espace d’embedding a révélé une structure nettement plus linéaire après l’application de JEPA, suggérant que le modèle intègre mieux les concepts. Cela pourrait expliquer l’amélioration de la précision et de la généralisation. Les critiques portent sur l’augmentation du coût computationnel et le manque de validation à grande échelle — des points que l’équipe prévoit de traiter dans la version complète. L’approche est compatible avec diverses méthodes d’entraînement, offrant un gain de performance, de robustesse et de fiabilité. Mais au-delà des résultats, Huang Hai est fasciné par l’idée d’« apprendre à comprendre » : ce n’est pas seulement améliorer un modèle, mais le rendre plus interprétable, plus proche d’une vraie compréhension. Deux expériences l’ont profondément marqué. La première, collaborer avec des pionniers comme Yann LeCun et Randall Balestriero, qui défendent l’idée que l’apprentissage auto-supervisé est le principe fondamental de l’intelligence. Appliquer JEPA aux LLM est une étape concrète vers cette vision. La seconde, le processus même de recherche : loin de l’approche empirique typique de l’industrie, cette étude s’appuie sur une logique théorique — « si JEPA améliore la cohérence, alors l’espace d’embedding devrait être plus structuré » — et chaque prédiction est confirmée par l’expérience. C’est là, selon Huang Hai, la beauté de la recherche scientifique. À l’avenir, l’équipe envisage d’étendre son cadre à d’autres domaines et de creuser les liens entre structure interne des embeddings et performance. La question centrale reste : existe-t-il une relation causale entre cette structure et la généralisation ? Et peut-on y parvenir plus simplement ? Pour Huang Hai, ce n’est qu’un début — mais un début prometteur vers des modèles qui ne se contentent pas de simuler le langage, mais le comprennent.

Liens associés