HyperAIHyperAI

Command Palette

Search for a command to run...

Zu viele Frames, nicht alle nützlich: Effiziente Strategien für QA in langen Videos

Jongwoo Park Kanchana Ranasinghe Kumara Kahatapitiya Wonjeong Ryu Donghyun Kim Michael S. Ryoo

Zusammenfassung

Langformige Videos, die über lange zeitliche Intervalle reichen, sind hochgradig informationsredundant und enthalten mehrere voneinander lose verbundene Ereignisse oder Entitäten. Daher kann bei der Durchführung von Langform-Videofragebeantwortung (LVQA) alle notwendigen Informationen zur Generierung einer korrekten Antwort oft in einem kleinen Teil der Frames enthalten sein. In jüngster Literatur wird untersucht, wie große Sprachmodelle (LLMs) in LVQA-Benchmarks eingesetzt werden, wobei sie außergewöhnliche Leistungen erzielen, während sie auf visuelle Sprachmodelle (VLMs) zurückgreifen, um den gesamten visuellen Inhalt innerhalb der Videos in natürliche Sprache zu konvertieren. Solche VLMs fassen häufig eine große Anzahl gleichmäßig aus langen Videos gezogener Frames unabhängig voneinander ab, was ineffizient ist und hauptsächlich redundante Informationen liefert. Indem wir diese Entscheidungen in Frage stellen, erforschen wir optimale Strategien für die Auswahl von Schlüsselbildern (key-frames), die diese Redundanzen erheblich reduzieren können, insbesondere den hierarchischen Schlüsselbildselektor (Hierarchical Keyframe Selector). Unser vorgeschlagenes Framework, LVNet, erreicht den aktuellen Stand der Technik bei vergleichbarer Caption-Größe in drei Benchmark-LVQA-Datensätzen: EgoSchema, NExT-QA und IntentQA. Gleichzeitig zeigt es eine starke Leistung bei bis zu einer Stunde langen Videos im VideoMME. Unser Code wird öffentlich veröffentlicht. Der Code ist unter https://github.com/jongwoopark7978/LVNet zu finden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp