Les grands modèles de langage sont obsédés par les fausses pistes : Exploration de la résolution créative de problèmes et de l'effet d'Einstellung à l'aide du jeu « Only Connect Wall »

La quête d'une IA imitant l'humain a été un sujet de recherche en intelligence artificielle depuis ses débuts. L'évolution technique et les nouvelles capacités des derniers modèles de grands langages (LLMs) ont redonné vie à ce sujet, le faisant passer du domaine académique au courant culturel dominant. Bien que les tâches récentes d'évaluation des benchmarks en traitement du langage naturel (NLP) testent certains aspects du comportement imitatif humain (par exemple, les tâches de « comportement humain » dans BIG-bench), peu, voire aucune, n'examine les capacités de résolution créative de problèmes. La résolution créative de problèmes chez l'humain est un sujet bien étudié en neurosciences cognitives, avec des tests standardisés qui utilisent principalement la capacité à établir des connexions (hétérogènes) entre des mots-clés comme métrique de créativité. L'exposition à des stimuli trompeurs – appelés fausses pistes ou « red herrings » – entrave les performances humaines dans ces tâches par effet de fixation et paradigme Einstellung. Dans les études en neurosciences cognitives, ces fixations sont induites expérimentalement en pré-exposant les participants à des mots incorrects orthographiquement similaires aux fragments de mots ou indices suivants. Le segment Connecting Wall du populaire jeu télévisé britannique Only Connect reproduit essentiellement la formulation du Test d'Associations Éloignées (RAT) de Mednick, avec des fausses pistes intégrées et délibérées, ce qui en fait un ensemble de données idéal pour explorer et étudier l'effet de fixation et le paradigme Einstellung dans les LLMs. Dans cet article, nous présentons le nouveau dataset Only Connect Wall (OCW) et rapportons les résultats de notre évaluation sur des modèles linguistiques pré-entraînés et des LLMs sélectionnés pour des tâches de résolution créative de problèmes telles que le regroupement de mots-clés par connexions hétérogènes et l'identification de connexions correctes dans le domaine de la connaissance ouverte pour chaque groupe. Nous générons synthétiquement deux datasets supplémentaires : OCW-Randomized et OCW-WordNet pour analyser davantage notre hypothèse concernant les fausses pistes dans les modèles linguistiques. Le code et le lien vers le dataset sont disponibles sur https://github.com/TaatiTeam/OCW.