HyperAIHyperAI

Command Palette

Search for a command to run...

TraveLER: Ein modulares Multi-LMM-Agenten-Framework für Video-Fragen-Antworten

Chuyi Shang Amos You Sanjay Subramanian Trevor Darrell Roei Herzig

Zusammenfassung

Kürzlich haben bildbasierte große multimodale Modelle (Large Multimodal Models, LMMs) erhebliche Fortschritte bei der Videofragenbeantwortung (VideoQA) erzielt, indem sie einen frame-weisen Ansatz unter Nutzung einer großskaligen Vortrainierung auf zero-shot-Basis anwenden. Dennoch müssen diese Modelle in der Lage sein, relevante Informationen zu finden, diese zu extrahieren und die Frage gleichzeitig zu beantworten. Derzeit führen bestehende Methoden diese Schritte in einem einzigen Durchlauf durch, ohne sich anpassen zu können, falls unzureichende oder falsche Informationen erfasst wurden. Um dies zu überwinden, stellen wir einen modularen Multi-LMM-Agenten-Framework vor, der auf mehreren Agenten mit unterschiedlichen Rollen basiert und von einem Planer-Agenten gesteuert wird, der seine Anweisungen mithilfe von gemeinsam genutzten Rückmeldungen der anderen Agenten aktualisiert. Konkret präsentieren wir TraveLER, eine Methode, die einen Plan erstellen kann, um „durch“ das Video zu „durchqueren“, Fragen zu einzelnen Bildern zu stellen, um relevante Informationen zu „lokalisieren“ und zu speichern, und anschließend zu „bewerten“, ob ausreichend Informationen vorhanden sind, um die Frage zu beantworten. Falls nicht genügend Informationen vorliegen, ist unsere Methode in der Lage, auf Basis ihres gesammelten Wissens „neu zu planen“. Durch umfangreiche Experimente zeigen wir, dass der vorgeschlagene TraveLER-Ansatz die Leistung auf mehreren VideoQA-Benchmarks verbessert, ohne dass eine Fine-Tuning-Phase auf spezifischen Datensätzen erforderlich ist. Der Quellcode ist unter https://github.com/traveler-framework/TraveLER verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp