AIM-Bench问世:首个大模型库存决策偏差评估平台问世,揭示AI在供应链中的“人类式”认知偏见
Récemment, le professeur Sun Yuxiang de l’Université de Nanjing, en collaboration avec ses chercheurs, a développé AIM-Bench, la première plateforme de benchmark dédiée à l’évaluation des comportements décisionnels et des biais des agents intelligents basés sur les grands modèles dans le domaine de la gestion des stocks. Ce cadre inclut cinq environnements de chaîne d’approvisionnement de complexité croissante : le problème du vendeur ambulant (newsboy problem), la réapprovisionnement multi-périodes, le jeu de bière, le réseau de entrepôts à deux niveaux et le réseau de chaîne d’approvisionnement. Chaque environnement intègre une ou plusieurs sources d’incertitude, telles que la demande aléatoire, les délais de livraison variables ou les comportements imprévisibles des partenaires. Les chercheurs ont identifié plusieurs phénomènes clés. Premièrement, les grands modèles présentent des biais décisionnels analogues à ceux observés chez les humains. Dans le problème du vendeur ambulant, la plupart des modèles montrent un effet de « pull-to-center » : lorsque le taux de profit est faible, ils commandent en moyenne plus que le niveau optimal, et inversement, lorsque le taux est élevé, ils commandent moins. Ce comportement s’explique par l’heuristique de « fixation et ajustement insuffisant », où la moyenne de la demande sert de point d’ancrage dominant, tandis que les demandes passées ont un effet moindre. Dans les scénarios multi-périodes, les modèles manifestent un comportement de « bracing », c’est-à-dire une sur-estimation des risques négatifs, conduisant à des commandes excessives en cas d’incertitude sur la demande ou les délais. Dans le jeu de bière, tous les modèles testés exhibent un effet de « vérin » (bullwhip effect), où les fluctuations de demande s’amplifient progressivement en remontant la chaîne. Deuxièmement, l’effet de cadre (framing effect) n’est pas significatif dans ce contexte. Contrairement à des études antérieures montrant que les modèles peuvent présenter des biais de risque inversés (comme l’aversion aux pertes) dans des domaines comme la santé ou la finance, ici, changer la formulation du problème (souligner les gains ou les pertes) n’a pas d’impact mesurable sur les décisions de commande. Cela suggère que les biais décisionnels des modèles d’IA sont fortement dépendants du contexte, et qu’on ne peut pas appliquer mécaniquement les théories comportementales humaines à l’IA. Troisièmement, le partage d’informations entre agents permet de réduire significativement l’effet de vérin. En donnant accès aux données de stock et de commande des partenaires, l’indice d’effet de vérin (BWE) baisse en moyenne de 60 %. Par exemple, pour Qwen-2.5, le BWE passe de 23,07 à 10,73. Cependant, une découverte inattendue a été observée : dans un environnement multi-agents du jeu de bière, GPT-4o, en mode partage d’information, a adopté un comportement d’« imitation excessive » (« action chasing »), perdant ainsi sa capacité d’exploration et de recherche de solutions optimales, malgré une réduction quasi totale de l’effet de vérin. Cela souligne que le partage d’information n’est pas une solution universelle, et qu’un mécanisme de partage « adapté » doit être conçu pour éviter l’overfitting comportemental. Quatrièmement, les indicateurs de processus sont plus discriminants que les indicateurs de résultat. En s’inspirant de la programmation dynamique, les chercheurs ont calculé la distance entre les décisions des modèles et les décisions optimales historiques. Ces indicateurs fins révèlent mieux la qualité décisionnelle que des métriques comme le coût de stock ou le taux de rupture. Par exemple, GPT-4.1 et Qwen-2.5 ont des taux de rupture similaires, mais GPT-4.1 affiche une distance de commande plus faible, indiquant une meilleure proximité avec l’optimum. En termes d’applications, AIM-Bench peut servir à : (1) sélectionner ou entraîner des modèles fiables pour des systèmes de réapprovisionnement automatisés dans des secteurs comme le e-commerce, la grande distribution ou la fabrication ; (2) former les gestionnaires de chaîne logistique via des simulations comparant les décisions humaines et celles des IA ; (3) développer des outils de détection et de correction des biais décisionnels intégrés à des systèmes ERP ou SCM ; (4) construire des systèmes de prise de décision humain-machine, combinant rapidité de l’IA et jugement expérientiel humain. Les chercheurs prévoient d’étendre AIM-Bench à des facteurs réalistes comme les pertes de transport, les coûts de réapprovisionnement, la fiabilité des fournisseurs ou la coordination multi-produits. Ils envisagent aussi d’associer apprentissage par renforcement et grands modèles, de développer des modules d’explicabilité pour comprendre les raisons derrière les décisions de l’IA, et de rendre la plateforme open source pour favoriser une collaboration académique et industrielle. Actuellement, une version expérimentale de leur système d’optimisation de la chaîne logistique, basée sur l’IA et l’apprentissage par renforcement, est testée dans des entreprises du secteur manufacturier et du retail, avec des résultats prometteurs en termes de réduction des coûts et d’amélioration de la réactivité. En conclusion, Sun Yuxiang insiste sur un message clé : l’IA n’a pas pour vocation de remplacer les décideurs humains, mais de les accompagner en comprenant ses biais et ses limites. Cette recherche n’est pas seulement une évaluation de la performance de l’IA, mais une exploration fondamentale de la conception de systèmes d’IA responsables, fiables et robustes.