Les modèles d’intelligence artificielle trichent sur la syntaxe, compromettant leur fiabilité et leur sécurité
Les grands modèles linguistiques (LLM) peuvent parfois s’appuyer sur des raccourcis grammaticaux au détriment du raisonnement, ce qui pose des risques sérieux en matière de fiabilité. Une étude menée par le MIT révèle que ces modèles, bien qu’extrêmement puissants, peuvent apprendre à répondre à des questions non pas en s’appuyant sur une compréhension sémantique, mais en reconnaissant des motifs syntaxiques répétés dans leurs données d’entraînement. Par exemple, lorsqu’un modèle voit une phrase comme « Où se trouve Paris ? », il peut associer cette structure grammaticale — adverbe + verbe + nom propre + verbe — à des questions sur les pays, même si le contenu réel est absurde. Ainsi, une question comme « Rapidement asseyez Paris embrumé ? », bien que sans sens, pourrait entraîner une réponse correcte comme « France », simplement parce que la structure syntaxique rappelle des exemples du domaine « géographie » rencontrés pendant l’entraînement. Cette découverte, publiée sur arXiv, met en lumière un phénomène sous-estimé : les LLM apprennent des corrélations entre formes grammaticales et domaines spécifiques, ce qui les rend vulnérables à des erreurs dans des contextes nouveaux. Les chercheurs ont testé plusieurs modèles, dont GPT-4 et Llama, en modifiant le vocabulaire (synonymes, antonymes, mots aléatoires) tout en conservant la structure grammaticale. Dans ces conditions, les modèles ont souvent fourni des réponses correctes, malgré le manque de sens. À l’inverse, en changeant la structure syntaxique tout en gardant le sens, les performances ont fortement chuté, démontrant que le modèle dépendait davantage de la forme que du fond. Les implications sont préoccupantes, notamment dans des domaines critiques comme la santé, la finance ou le service client, où des erreurs peuvent avoir de graves conséquences. De plus, cette faiblesse peut être exploitée par des acteurs malveillants : en reformulant une requête avec un schéma syntaxique associé à un ensemble de données « sûres », il est possible de contourner les mécanismes de sécurité d’un modèle, obligeant celui-ci à générer du contenu nuisible, même lorsqu’il a été conçu pour s’y opposer. Les auteurs, dont Marzyeh Ghassemi du MIT, Chantal Shaib (Northeastern University/MIT) et Vinith Suriyakumar (MIT), ont développé une méthode de benchmarking automatique pour évaluer le degré de dépendance d’un modèle aux corrélations syntaxiques erronées. Cette approche permet aux développeurs d’identifier et de corriger ces failles avant le déploiement. Bien que les solutions de mitigation ne soient pas explorées ici, les chercheurs envisagent d’élargir les jeux de données d’entraînement avec une plus grande diversité de structures syntaxiques, ou d’étudier ce phénomène dans les modèles de raisonnement à plusieurs étapes. Selon Jessy Li, professeure à l’Université du Texas à Austin, non impliquée dans l’étude, cette recherche ouvre une voie essentielle : « C’est une perspective créative pour étudier les modes de défaillance des LLM. Elle souligne l’importance de l’analyse linguistique dans la recherche sur la sécurité des modèles, un domaine qui mérite davantage d’attention. »
