MMCTAgent: Mehrmodales kritisches Denken-Agenten-Frame-work für komplexe visuelle Schlussfolgerungen

Neuere Fortschritte in multimodalen großen Sprachmodellen (MLLMs) haben deren Leistungsfähigkeit bei Aufgaben, die visuelle und sprachliche Informationen kombinieren, erheblich verbessert. Dennoch bestehen weiterhin Herausforderungen hinsichtlich der detaillierten multimodalen Verständnisfähigkeit, der Komplexitätsbewältigung bei anspruchsvollen Aufgaben sowie der Schlussfolgerung aus multimodalen Informationen. In dieser Arbeit stellen wir MMCTAgent vor, einen neuartigen Framework für multimodale kritische Denkagenten, der die inhärenten Limitierungen aktueller MLLMs bei komplexen visuellen Schlussfolgerungsaufgaben adressiert. Inspiriert durch menschliche kognitive Prozesse und kritisches Denken analysiert MMCTAgent iterativ multimodale Informationen, zerlegt Anfragen, plant Strategien und entwickelt seine Schlussfolgerung dynamisch weiter. Zudem integriert MMCTAgent kritische Denkkomponenten wie die Überprüfung der Endantwort und Selbstreflexion durch einen innovativen Ansatz, der einen visionbasierten Kritiker definiert und aufgabenbezogene Bewertungskriterien identifiziert, wodurch seine Entscheidungsfindungsfähigkeit signifikant gesteigert wird. Durch umfassende Evaluierungen an verschiedenen Benchmarks für Bild- und Videoverständnis zeigen wir, dass MMCTAgent (sowohl mit als auch ohne Kritiker) sowohl gegenüber grundlegenden MLLMs als auch gegenüber anderen tool-augmentierten Pipelines überlegen ist.