vor 2 Monaten

Lernen zu erklären: Multimodales Schließen durch Gedankenkette für die Beantwortung wissenschaftlicher Fragen

Pan Lu; Swaroop Mishra; Tony Xia; Liang Qiu; Kai-Wei Chang; Song-Chun Zhu; Oyvind Tafjord; Peter Clark; Ashwin Kalyan

Abstract

Bei der Beantwortung von Fragen nutzen Menschen die über verschiedene Modalitäten verfügbare Informationen, um eine konsistente und vollständige Gedankenfolge (Chain of Thought, CoT) zu synthetisieren. Dieser Prozess ist bei tiefen Lernmodellen wie großen Sprachmodellen in der Regel ein Black Box-Prozess. Kürzlich wurden wissenschaftliche Fragebenchmarks verwendet, um die Fähigkeit eines KI-Systems zur mehrstufigen Schlussfolgerung und Interpretierbarkeit zu diagnostizieren. Allerdings versagen bestehende Datensätze darin, Anmerkungen zu den Antworten bereitzustellen, oder sie sind auf den rein textuellen Modus, kleine Skalen und begrenzte Domänenvielfalt beschränkt. Zu diesem Zweck präsentieren wir Science Question Answering (ScienceQA), einen neuen Benchmark, der etwa 21.000 multimodale Multiple-Choice-Fragen mit einer Vielzahl an Wissenschaftsthemen sowie Anmerkungen zu ihren Antworten mit entsprechenden Vorlesungen und Erklärungen enthält. Wir entwerfen ferner Sprachmodelle, die lernen sollen, Vorlesungen und Erklärungen als Gedankenfolge (CoT) zu generieren, um den mehrstufigen Schlussfolgerungsprozess bei der Beantwortung von ScienceQA-Fragen nachzuahmen. ScienceQA zeigt die Nutzen von CoT in Sprachmodellen auf: CoT verbessert die Leistung bei der Beantwortung von Fragen um 1,20 % bei wenigen Schüssen mit GPT-3 und um 3,99 % bei feintuning-unterstütztem UnifiedQA. Wir untersuchen auch die obere Grenze für Modelle, um Erklärungen durch deren Einbeziehung in die Eingabe zu nutzen; dabei beobachten wir eine Verbesserung der Leistung bei wenigen Schüssen mit GPT-3 um 18,96 %. Unsere Analyse zeigt zudem, dass Sprachmodelle ähnlich wie Menschen von Erklärungen profitieren, indem sie aus weniger Daten lernen können und mit nur 40 % der Daten dieselbe Leistung erzielen. Die Daten und das Code sind unter https://scienceqa.github.io verfügbar.