Multimodales Kette-des-Gedankens-Schließen in Sprachmodellen

Große Sprachmodelle (LLMs) haben bei komplexen Schlussfolgerungen durch die Nutzung von Gedankenkette-Prompts (chain-of-thought, CoT) beeindruckende Leistungen gezeigt, indem sie Zwischenschlüsse als Begründung zur Ermittlung der Antwort generieren. Bislang haben jedoch die meisten existierenden CoT-Studien sich hauptsächlich auf die sprachliche Modalität konzentriert. Wir schlagen Multimodal-CoT vor, einen Ansatz, der sprachliche (Text) und visuelle (Bilder) Modalitäten in ein zweistufiges Framework integriert, das die Erstellung von Begründungen und die Ermittlung der Antworten trennt. Auf diese Weise kann die Antwortermittlung bessere, auf multimodalen Informationen basierende Begründungen nutzen. Experimentelle Ergebnisse auf den Benchmark-Datensätzen ScienceQA und A-OKVQA zeigen die Effektivität unseres vorgeschlagenen Ansatzes. Mit Multimodal-CoT erreicht unser Modell unter 1 Milliarde Parametern Spitzenleistungen im ScienceQA-Benchmark. Unsere Analyse zeigt, dass Multimodal-CoT Vorteile bei der Minderung von Halluzinationen und der Steigerung der Konvergenzgeschwindigkeit bietet. Der Quellcode ist öffentlich verfügbar unter https://github.com/amazon-science/mm-cot.