Zu viele Frames, nicht alle nützlich: Effiziente Strategien für QA in langen Videos

Langformige Videos, die über lange zeitliche Intervalle reichen, sind hochgradig informationsredundant und enthalten mehrere voneinander lose verbundene Ereignisse oder Entitäten. Daher kann bei der Durchführung von Langform-Videofragebeantwortung (LVQA) alle notwendigen Informationen zur Generierung einer korrekten Antwort oft in einem kleinen Teil der Frames enthalten sein. In jüngster Literatur wird untersucht, wie große Sprachmodelle (LLMs) in LVQA-Benchmarks eingesetzt werden, wobei sie außergewöhnliche Leistungen erzielen, während sie auf visuelle Sprachmodelle (VLMs) zurückgreifen, um den gesamten visuellen Inhalt innerhalb der Videos in natürliche Sprache zu konvertieren. Solche VLMs fassen häufig eine große Anzahl gleichmäßig aus langen Videos gezogener Frames unabhängig voneinander ab, was ineffizient ist und hauptsächlich redundante Informationen liefert. Indem wir diese Entscheidungen in Frage stellen, erforschen wir optimale Strategien für die Auswahl von Schlüsselbildern (key-frames), die diese Redundanzen erheblich reduzieren können, insbesondere den hierarchischen Schlüsselbildselektor (Hierarchical Keyframe Selector). Unser vorgeschlagenes Framework, LVNet, erreicht den aktuellen Stand der Technik bei vergleichbarer Caption-Größe in drei Benchmark-LVQA-Datensätzen: EgoSchema, NExT-QA und IntentQA. Gleichzeitig zeigt es eine starke Leistung bei bis zu einer Stunde langen Videos im VideoMME. Unser Code wird öffentlich veröffentlicht. Der Code ist unter https://github.com/jongwoopark7978/LVNet zu finden.