Chain-of-Action: Treue und multimodale Fragebeantwortung mittels Großer Sprachmodelle

Wir stellen einen Chain-of-Action (CoA)-Rahmen für multimodale und retrieval-augmentierte Frage-Antwort-Systeme (QA) vor. Im Vergleich zur bestehenden Literatur überwindet CoA zwei zentrale Herausforderungen aktueller QA-Anwendungen: (i) untreue Halluzinationen, die mit aktuellen oder fachspezifischen Fakten nicht übereinstimmen, und (ii) schwache Schlussfolgerungskapazitäten bei kompositorischer Information. Unser zentrales Beitrag besteht in einem neuartigen Schlussfolgerungs-retrieval-Mechanismus, der eine komplexe Frage durch systematisches Prompting und vordefinierte Aktionen in eine Schlussfolgerungskette zerlegt. Methodisch schlagen wir drei Arten von domainanpassungsfähigen „Plug-and-Play“-Aktionen vor, um aktuelle Informationen aus heterogenen Quellen zu retrieven. Zudem führen wir eine Multi-Reference-Faith-Score-Metrik (MRFS) ein, um Antworten zu überprüfen und Konflikte zu lösen. Empirisch belegen wir die Leistungsfähigkeit von CoA gegenüber anderen Ansätzen anhand öffentlicher Benchmarks sowie einer Fallstudie im Bereich Web3.