VideoTree: Adaptives baumbasiertes Video-Modell für die Schließfolgerungen von LLM bei langen Videos

Das Verstehen von langen Videos wird durch die hohe Redundanz der Videodaten und die Fülle abfrageunabhängiger Informationen erschwert. Um diesen Herausforderungen zu begegnen, schlagen wir VideoTree vor, ein trainingsfreies Framework, das eine abfrageadaptive und hierarchische Videorepräsentation für die Schließfolgerung von LLMs über lange Videos erstellt. Zunächst extrahiert VideoTree durch einen iterativen Prozess abfragerelevante Informationen aus dem Eingabevideo, wobei es die Auswahl von Schlüsselbildern nach deren Relevanz für die Abfrage stufenweise verfeinert. Darüber hinaus nutzt VideoTree die inhärente hierarchische Struktur der langen Videodaten, die von existierenden LLM-basierten Methoden oft vernachlässigt wird. Insbesondere integrieren wir mehrgranulare Informationen in eine baumartige Repräsentation, was VideoTree ermöglicht, abfragerelevante Details aus langen Videos in einem grob-zu-feinen Ansatz zu extrahieren. Dies ermöglicht es dem Modell, eine breite Palette von Videoabfragen mit unterschiedlichem Detailgrad effektiv zu bearbeiten. Schließlich aggregiert VideoTree die hierarchischen abfragerelevanten Informationen innerhalb der Baumstruktur und übergibt sie an ein LLM-Schließfolgerungsmodell zur Beantwortung der Abfrage. Unsere Experimente zeigen, dass unsere Methode sowohl die Genauigkeit als auch die Effizienz der Schließfolgerung verbessert. Insbesondere übertrifft VideoTree bestehende trainingsfreie Ansätze bei EgoSchema und NExT-QA mit weniger Inferenzzeit und erreicht eine Genauigkeit von 61,1 % und 75,6 % auf den Testsets ohne zusätzliche videospezifische Trainingsdaten. Des Weiteren erzielt VideoTree auf der langen Aufteilung von Video-MME (durchschnittlich 44 Minuten) bessere Ergebnisse als GPT-4V und viele andere MLLMs, die umfangreich auf Videodaten trainiert wurden.