Chain-of-Action : Réponse fidèle et multimodale aux questions par le biais de grands modèles linguistiques

Nous présentons un cadre de type Chaîne d’Actions (Chain-of-Action, CoA) pour la question-réponse multimodale et enrichie par la récupération d’informations (retrieval-augmented QA). Contrairement à l’état de l’art, CoA surmonte deux défis majeurs des applications actuelles de QA : (i) les hallucinations non fidèles, c’est-à-dire des réponses incohérentes avec les faits récents ou spécifiques au domaine, et (ii) les performances insuffisantes en raisonnement face à des informations composées. Notre contribution principale réside dans un mécanisme original de raisonnement-récupération, qui décompose une question complexe en une chaîne de raisonnement grâce à une stimulation systématique et à des actions prédéfinies. Méthodologiquement, nous proposons trois types d’actions « plug-and-play » adaptables au domaine, permettant de récupérer des informations en temps réel à partir de sources hétérogènes. Nous introduisons également un score de fidélité à plusieurs références (multi-reference faith score, MRFS) afin de vérifier et de résoudre les conflits éventuels dans les réponses. Expérimentalement, nous exploitons à la fois des benchmarks publics et une étude de cas dans le domaine Web3 pour démontrer l’efficacité de CoA par rapport aux autres méthodes.