HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 20 jours
LLM
Transformer

Attention dégradée des LLMs

Une étude récente menée par l'université Queens College (CUNY) et publiée dans PNAS Nexus révèle une limite fondamentale des grands modèles de langage : leur incapacité à gérer les conflits informationnels sur de longues séquences. Les chercheurs ont soumis plusieurs modèles, dont GPT-4o, Claude 3.5 Sonnet, GPT-5 et Gemini 2.5 Pro, au test de Stroop, un protocole classique de psychologie cognitive qui consiste à nommer la couleur d'encre d'un mot tout en ignorant sa signification. L'expérience a fait varier la longueur de la liste de mots de cinq à quarante éléments, en alternant des conditions où le mot correspondait à sa couleur, où il y avait un conflit, ou des stimuli neutres. Les résultats montrent que si les modèles atteignent des taux de réussite excellents sur de courtes listes, leurs performances s'effondrent brutalement dès l'augmentation de la séquence. La précision de GPT-4o chute par exemple de 91 % à seulement 15 % sur une liste de quarante mots conflictuels. Des tests de contrôle ont écarté les défaillances de la mémoire contextuelle ou du codage visuel, confirmant que le problème réside spécifiquement dans le refus de résoudre l'interférence entre le sens du texte et la couleur. Ces lacunes persistent chez les architectures les plus récentes. Contrairement aux humains, qui ajustent automatiquement leur concentration après une erreur, les IA ne démontrent aucune capacité d'adaptation en temps réel. La compréhension théorique des règles du test ne se traduit pas par une exécution correcte, certains systèmes tentant même de contourner le problème en générant du code. Cette faiblesse s'explique par la nature même de l'architecture Transformer. Son mécanisme d'attention repose sur des probabilités statistiques et des pondérations dynamiques, mais il manque d'un système de contrôle exécutif centralisé, comparable au lobe préfrontal humain, capable de prioriser les objectifs et de filtrer activement les distractions. Cette recherche souligne que l'augmentation massive des paramètres et des données ne suffit pas à doter les IA d'une stabilité cognitive dans des environnements complexes. Elle propose également d'intégrer des protocoles de psychologie cognitive pour évaluer les limites des modèles au-delà des benchmarks traditionnels. Pour progresser vers une intelligence artificielle générale véritablement autonome, les prochaines générations d'architectures devront probablement incorporer des mécanismes de filtrage actif et de contrôle hiérarchique, inspirés du fonctionnement cérébral, afin de maintenir la focale sur la tâche malgré le bruit informationnel.

Liens associés

Attention dégradée des LLMs | Articles tendance | HyperAI