HyperAIHyperAI
vor 2 Monaten

Ein einfaches LLM-Rahmenwerk für die langfristige Video-Fragebeantwortung

Ce Zhang; Taixi Lu; Md Mohaiminul Islam; Ziyang Wang; Shoubin Yu; Mohit Bansal; Gedas Bertasius
Ein einfaches LLM-Rahmenwerk für die langfristige Video-Fragebeantwortung
Abstract

Wir präsentieren LLoVi, ein sprachbasiertes Framework für die langfristige Video-Fragebeantwortung (LVQA). Im Gegensatz zu früheren Methoden der langfristigen Video-Verarbeitung, die oft kostspielig sind und eine spezialisierte Modellierung für lange Videos erfordern (z.B. Speicherwarteschlangen, Zustandsraumschichten usw.), nutzt unser Ansatz einen visuellen Captioner auf Frame- oder Clip-Ebene (z.B. BLIP2, LaViLa, LLaVA), der mit einem großen Sprachmodell (z.B. GPT-3.5, GPT-4) gekoppelt ist, um ein einfaches, aber überraschend effektives LVQA-Framework zu schaffen. Insbesondere zerlegen wir die kurz- und langfristigen Aspekte des LVQA in zwei Stufen. Zunächst verwenden wir einen kurzfristigen visuellen Captioner, um textuelle Beschreibungen von kurzen Videoclips (0,5-8 Sekunden Länge) zu generieren, die dicht aus einem langen Eingabevideo abgetastet werden. Anschließend aggregiert das große Sprachmodell die dicht extrahierten kurzfristigen Captions, um die langfristige zeitliche Schlussfolgerung durchzuführen, die erforderlich ist, um das gesamte Video zu verstehen und eine Frage zu beantworten. Um herauszufinden, was unseren einfachen Framework so effektiv macht, evaluieren wir verschiedene Komponenten unseres Systems gründlich. Unsere empirische Analyse zeigt, dass die Wahl des visuellen Captioners und des großen Sprachmodells entscheidend für eine gute LVQA-Leistung ist. Darüber hinaus demonstrieren wir, dass ein spezialisiertes Prompting, bei dem das große Sprachmodell zunächst die störanfälligen kurzfristigen visuellen Captions zusammenfasst und dann eine gegebene Eingabefrage beantwortet, zu einer erheblichen Leistungssteigerung im LVQA führt. Auf EgoSchema, einem Benchmark für sehr lange Formate der Video-Fragebeantwortung, erreicht unsere Methode eine Genauigkeit von 50,3 % und übertrifft den bisher besten Ansatz um 18,1 % (absoluter Gewinn). Zudem übertrifft unser Ansatz den bisherigen Stand der Technik um 4,1 % und 3,1 % auf NeXT-QA und IntentQA. Wir erweitern LLoVi auch auf den gebundenen LVQA-Bereich und zeigen dabei seine Überlegenheit gegenüber allen früheren Methoden am NeXT-GQA-Datensatz. Unser Code wird unter https://github.com/CeeZh/LLoVi veröffentlicht werden.

Ein einfaches LLM-Rahmenwerk für die langfristige Video-Fragebeantwortung | Neueste Forschungsarbeiten | HyperAI