HyperAIHyperAI
vor 13 Tagen

Sprach-Repository für die Verständnislangen Videos

Kumara Kahatapitiya, Kanchana Ranasinghe, Jongwoo Park, Michael S. Ryoo
Sprach-Repository für die Verständnislangen Videos
Abstract

Sprache ist mit dem Aufstieg von Großmodellen (LLMs) zu einer zentralen Modalität in der Computer Vision geworden. Trotz der Unterstützung langer Eingabefolgen nimmt ihre Wirksamkeit bei der Verarbeitung langfristiger Informationen mit zunehmender Eingabelänge allmählich ab. Dies ist besonders kritisch in Anwendungen wie der Verarbeitung langer Videos. In diesem Paper stellen wir eine Language Repository (LangRepo) für LLMs vor, die präzise und strukturierte Informationen als interpretierbare (d. h. rein textbasierte) Darstellung aufrechterhält. Unser Repository wird iterativ anhand von mehrskaligen Video-Chunk-Teilen aktualisiert. Wir führen Schreib- und Leseoperationen ein, die darauf abzielen, Redundanzen im Text zu reduzieren und Informationen auf verschiedenen zeitlichen Skalen zu extrahieren. Der vorgeschlagene Rahmen wird an zero-shot Visual Question Answering Benchmarks wie EgoSchema, NExT-QA, IntentQA und NExT-GQA evaluiert und zeigt dabei state-of-the-art Ergebnisse für seine Größe. Der Quellcode ist unter https://github.com/kkahatapitiya/LangRepo verfügbar.

Sprach-Repository für die Verständnislangen Videos | Neueste Forschungsarbeiten | HyperAI