TraveLER: Ein modulares Multi-LMM-Agenten-Framework für Video-Fragen-Antworten

Kürzlich haben bildbasierte große multimodale Modelle (Large Multimodal Models, LMMs) erhebliche Fortschritte bei der Videofragenbeantwortung (VideoQA) erzielt, indem sie einen frame-weisen Ansatz unter Nutzung einer großskaligen Vortrainierung auf zero-shot-Basis anwenden. Dennoch müssen diese Modelle in der Lage sein, relevante Informationen zu finden, diese zu extrahieren und die Frage gleichzeitig zu beantworten. Derzeit führen bestehende Methoden diese Schritte in einem einzigen Durchlauf durch, ohne sich anpassen zu können, falls unzureichende oder falsche Informationen erfasst wurden. Um dies zu überwinden, stellen wir einen modularen Multi-LMM-Agenten-Framework vor, der auf mehreren Agenten mit unterschiedlichen Rollen basiert und von einem Planer-Agenten gesteuert wird, der seine Anweisungen mithilfe von gemeinsam genutzten Rückmeldungen der anderen Agenten aktualisiert. Konkret präsentieren wir TraveLER, eine Methode, die einen Plan erstellen kann, um „durch“ das Video zu „durchqueren“, Fragen zu einzelnen Bildern zu stellen, um relevante Informationen zu „lokalisieren“ und zu speichern, und anschließend zu „bewerten“, ob ausreichend Informationen vorhanden sind, um die Frage zu beantworten. Falls nicht genügend Informationen vorliegen, ist unsere Methode in der Lage, auf Basis ihres gesammelten Wissens „neu zu planen“. Durch umfangreiche Experimente zeigen wir, dass der vorgeschlagene TraveLER-Ansatz die Leistung auf mehreren VideoQA-Benchmarks verbessert, ohne dass eine Fine-Tuning-Phase auf spezifischen Datensätzen erforderlich ist. Der Quellcode ist unter https://github.com/traveler-framework/TraveLER verfügbar.