Apprendre à Expliquer : Raisonnement Multimodal par Chaînes de Pensée pour la Réponse aux Questions Scientifiques

Lorsqu'ils répondent à une question, les humains utilisent les informations disponibles dans différentes modalités pour synthétiser une chaîne de pensée (CoT) cohérente et complète. Ce processus est généralement une boîte noire dans le cas des modèles d'apprentissage profond, tels que les grands modèles linguistiques. Récemment, des bancs d'essai de questions scientifiques ont été utilisés pour diagnostiquer la capacité de raisonnement en plusieurs étapes et l'interprétabilité d'un système d'IA. Cependant, les jeux de données existants échouent à fournir des annotations pour les réponses, ou sont limités à la modalité textuelle uniquement, à des échelles réduites et à une diversité de domaines limitée. À cet égard, nous présentons Science Question Answering (ScienceQA), un nouveau banc d'essai composé de ~21k questions à choix multiples multimodales avec un ensemble diversifié de sujets scientifiques et des annotations de leurs réponses accompagnées de cours correspondants et d'explications. Nous avons également conçu des modèles linguistiques pour apprendre à générer ces cours et explications comme une chaîne de pensée (CoT) afin de simuler le processus de raisonnement en plusieurs étapes lorsqu'ils répondent aux questions ScienceQA. ScienceQA démontre l'utilité de la CoT dans les modèles linguistiques, car la CoT améliore les performances en réponse aux questions de 1,20 % dans GPT-3 avec peu d'exemples et de 3,99 % dans UnifiedQA finement ajusté. Nous explorons également la limite supérieure pour que les modèles puissent tirer parti des explications en les intégrant dans l'entrée ; nous observons qu'elle améliore les performances avec peu d'exemples de GPT-3 de 18,96 %. Notre analyse montre par ailleurs que les modèles linguistiques bénéficient des explications, tout comme les humains, pour apprendre à partir de moins de données et atteindre les mêmes performances avec seulement 40 % des données. Les données et le code sont disponibles sur https://scienceqa.github.io.