Pourquoi l'IA ne peut pas vraiment comprendre une fleur comme le fait l'homme
Pourquoi l'IA ne peut pas comprendre une fleur comme le font les humains Même avec tout son entraînement et sa puissance informatique, un outil d'intelligence artificielle (IA) comme ChatGPT ne peut pas représenter le concept d'une fleur de la même manière qu'un humain, selon une nouvelle étude publiée dans le journal Nature Human Behaviour. Qihui Xu, auteure principale de l'étude et chercheuse postdoctorale en psychologie à l'Université d'État de l'Ohio, explique : « Un grand modèle de langage ne peut pas sentir une rose, toucher les pétales d'une marguerite ou traverser un champ de fleurs sauvages. Sans ces expériences sensorielles et motrices, il ne peut pas vraiment représenter ce qu'est une fleur dans toute sa richesse. C'est également vrai pour certains autres concepts humains. » Les grands modèles de langage (LLMs) qui alimentent les assistants d'IA sont généralement basés sur le langage seul et parfois avec des images. Pour vérifier l'alignement entre l'IA et les humains dans la représentation de concepts, Xu et ses collègues ont comparé les connaissances de 4,442 mots chez les humains et deux familles de LLMs de pointe issues d'OpenAI (GPT-3.5 et GPT-4) et de Google (PaLM et Gemini). Méthodes de Test Deux mesures ont été utilisées : 1. Glasgow Norms : Établit des évaluations de mots sur neuf dimensions, y compris l'excitation émotionnelle, la concrétion et l'imageabilité. Par exemple, il demande des évaluations de l'excitation émotionnelle qu'évoque une fleur et de la capacité mentale à la visualiser. 2. Lancaster Norms : Examine comment les concepts de mots sont liés aux informations sensorielles (toucher, audition, odorat, vision) et motrices, impliquées dans des actions comme celles réalisées par la bouche, la main, le bras et le torse. Par exemple, il demande des évaluations sur la façon dont nous expérimentons les fleurs par l'odorat et les actions du torse. Résultats de l'Alignement Les chercheurs ont analysé le degré de corrélation entre les évaluations des LLMs et celles des humains sur les concepts. Ensuite, ils ont étudié comment les différentes dimensions contribuent conjointement à la représentation conceptuelle globale d'un mot et comment différents mots sont interconnectés. Les LLMs se sont très bien comportés en représentant des mots qui n'avaient aucun lien avec les sens et les actions motrices. Cependant, face à des mots liés à des expériences sensorielles et motrices, l'IA a échoué à capturer les concepts de manière comparable à ceux des humains. 「À partir du parfum intense d'une fleur, du toucher soyeux et vif lorsque nous caressons ses pétales, jusqu'à la joie profonde qu’elle évoque, la représentation humaine de ‘fleur’ lie ces diverses expériences et interactions en une catégorie cohérente,» expliquent les chercheurs dans leur article. Le problème, c'est que la plupart des LLMs dépendent du langage, et « le langage à lui seul ne peut pas pleinement recréer la représentation conceptuelle dans toute sa richesse, » ajoute Xu. Bien que les LLMs puissent approximer certains concepts humains, surtout ceux qui ne nécessitent pas l'implication des sens ou des actions motrices, ce type d'apprentissage n'est pas efficace. « Ils acquièrent ce qu'ils savent en consommant des quantités astronomiques de textes—des ordres de grandeur supérieurs à ce qu’un humain est exposé tout au long de sa vie—et ils ne parviennent toujours pas à capturer complètement certains concepts de la manière dont les humains le font,» souligne Xu. « L’expérience humaine est beaucoup plus riche que ce que les mots peuvent contenir. » Cependant, Xu note que les LLMs sont en constante amélioration. L’étude a en effet montré que les LLMs formés avec des images en plus du texte ont mieux performé dans la représentation de concepts visuels. Elle prévoit également que lorsque les LLMs futurs seront dotés de données sensorielles et de systèmes robotiques, ils pourront faire des inférences actives sur le monde physique et agir en conséquence. Cette différence fondamentale dans la compréhension des concepts a des implications significatives pour la manière dont l'IA interagit avec les humains. Si l'IA perçoit le monde de manière radicalement différente, cela pourrait affecter sa capacité à comuniquer et collaborer de manière effective. Implications et Perspectives Cette étude souligne les limites actuelles des models d'IA dans la compréhension de concepts richement liés aux expériences sensorielles et motrices. Cela a des ramifications importantes pour l'avenir de l’interface IA-humain, notamment en matière de communication naturelle, de design d’assistant virtuel et d’interaction dans des environnements complexes. Les co-auteurs de l'étude incluent Yingying Peng, Ping Li et Minghua Wu de l'Université Polytechnique de Hong Kong ; Samuel Nastase de l'Université de Princeton ; et Martin Chodorow de l'Université de la City de New York. Évaluation Professionnelle Cette recherche apporte une nouvelle perspective sur les capacités et les limitations des modèles de langage actuellement dominants. Elle souligne l’importance de l’intégration des expériences sensorielles et motrices pour une IA véritablement humanoïde. Cette prise de conscience pourrait orienter des développements futurs en IA vers des systèmes plus holistiques, capables de s’immerger pleinement dans les expériences sensorielles et motrices, améliorant ainsi leur alignement conceptuel avec les humains. Profil de l’Équipe L’équipe de recherche dirigée par Qihui Xu inclut des experts en psychologie cognitive, en linguistique et en IA, ce qui garantit une approche multidisciplinaire robuste. Their collaboration has provided valuable insights into the intersection of human cognition and machine learning, highlighting areas where IA currently falls short and offering suggestions for improvement. Cette étude marque un point culminant dans la compréhension des interactions homme-machine, offrant des directives précieuses pour les professionnels de l’industrie et les chercheurs travaillant dans le domaine de l’IA.