VideoAgent: Langform-Videoverstehen mit großem Sprachmodell als Agent

Die Verarbeitung langformiger Videos stellt eine erhebliche Herausforderung im Bereich des Computer Vision dar und erfordert Modelle, die über lange, mehrmodale Sequenzen hinweg reasoning betreiben können. Ausgehend vom menschlichen kognitiven Prozess beim Verstehen langformiger Videos legen wir besonderen Wert auf interaktives Reasoning und Planung, anstatt lediglich die Verarbeitung langer visueller Eingaben zu optimieren. Wir stellen ein neuartiges agentenbasiertes System, VideoAgent, vor, das ein großes Sprachmodell als zentralen Agenten nutzt, um iterativ entscheidende Informationen zu identifizieren und zusammenzustellen, um eine Frage zu beantworten. Visuelle Informationen werden dabei mithilfe von vision-sprachlichen Grundmodellen übersetzt und abgerufen. Auf den anspruchsvollen Benchmarks EgoSchema und NExT-QA erreicht VideoAgent eine zero-shot Genauigkeit von 54,1 % beziehungsweise 71,3 %, wobei im Durchschnitt nur 8,4 beziehungsweise 8,2 Frames verwendet werden. Diese Ergebnisse belegen die überlegene Effektivität und Effizienz unseres Ansatzes im Vergleich zu aktuellen state-of-the-art-Methoden und unterstreichen das Potenzial agentenbasierter Ansätze für die Weiterentwicklung der Verarbeitung langformiger Videos.