HyperAI

Une étude récente publiée dans PNAS Nexus met en lumière une faiblesse structurelle des modèles de langage de grande taille. En soumettant ces systèmes à la tâche de Stroop, un test psychologique classique, les chercheurs Suketu Patel, Hongbin Wang et Jin Fan ont démontré une incapacité notable à maintenir l'attention sur des listes prolongées. Le principe du test consiste à identifier la couleur d'encre d'un mot tout en ignorant sa signification. Ce test demande au cerveau humain d'inhiber automatiquement la lecture du mot. Si les humains parviennent à rester précis et stables, même sur de longues séries, les intelligences artificielles basées sur des architectures transformer montrent des résultats très différents. Les résultats obtenus en janvier 2025 révèlent un effondrement brutal de la précision à mesure que la longueur de la liste augmente, particulièrement lorsque la signification du mot ne correspond pas à sa couleur. Le modèle GPT-4o atteint une précision de 91 pour cent sur cinq mots, mais chute à 57 pour cent sur dix mots, puis à 15 pour cent sur quarante mots. Claude 3.5 Sonnet maintient une performance stable jusqu'à vingt mots avant de chuter à 24 pour cent à quarante mots. Lorsque les listes mélangent des correspondances et des non-correspondances, la précision sur les éléments discordants frôle les zéro pour cent. Des performances équivalentes ont été observées avec GPT-5, Claude Opus 4.1 et Gemini 2.5. Face à ces résultats, les systèmes de traitement du langage ont systématiquement privilégié la lecture du mot au nommage de la couleur. Les chercheurs expliquent cette dissociation entre la reconnaissance de la structure de la tâche et son exécution réussie. Contrairement aux humains, ces modèles semblent incapables d'activer les mécanismes de résolution de conflit nécessaires pour inhiber une réponse automatique. Bien qu'entraînés à la lecture bien plus qu'au nommage de couleurs, les humains disposent d'un contrôle exécutif leur permettant de s'adapter sur la durée. Cette étude souligne une limite fondamentale des réseaux actuels. La simple compréhension des consignes ne suffit pas à reproduire la flexibilité cognitive humaine. Pour l'industrie technologique, ces observations indiquent que les modèles de langage restent vulnérables dans les scénarios nécessitant une attention soutenue et une inhibition de distractions contextuelles. Les prochaines itérations devront probablement intégrer des mécanismes de réorientation plus robustes, s'inspirant des processus d'attention biologique, pour combler cet écart entre la reconnaissance d'une tâche et son exécution efficace.

Liens associés

Liens associés

Liens associés

Tutoriel En Ligne | UC Berkeley/NVIDIA Et d'autres Publient Gsplat, Une Bibliothèque 3DGS open-source Qui Économise 4 Fois La Mémoire GPU Et Réduit Le Temps d'entraînement De 10%.

Tutoriel En Ligne | UC Berkeley/NVIDIA Et d'autres Publient Gsplat, Une Bibliothèque 3DGS open-source Qui Économise 4 Fois La Mémoire GPU Et Réduit Le Temps d'entraînement De 10%.

Command Palette

IA échoue au test d'attention

Liens associés

Command Palette

IA échoue au test d'attention

Liens associés

Command Palette

IA échoue au test d'attention

Liens associés

Tutoriel En Ligne | UC Berkeley/NVIDIA Et d'autres Publient Gsplat, Une Bibliothèque 3DGS open-source Qui Économise 4 Fois La Mémoire GPU Et Réduit Le Temps d'entraînement De 10%.

Tutoriel En Ligne | UC Berkeley/NVIDIA Et d'autres Publient Gsplat, Une Bibliothèque 3DGS open-source Qui Économise 4 Fois La Mémoire GPU Et Réduit Le Temps d'entraînement De 10%.