HyperAIHyperAI

Command Palette

Search for a command to run...

Sprach-Repository für die Verständnislangen Videos

Kumara Kahatapitiya Kanchana Ranasinghe Jongwoo Park Michael S. Ryoo

Zusammenfassung

Sprache ist mit dem Aufstieg von Großmodellen (LLMs) zu einer zentralen Modalität in der Computer Vision geworden. Trotz der Unterstützung langer Eingabefolgen nimmt ihre Wirksamkeit bei der Verarbeitung langfristiger Informationen mit zunehmender Eingabelänge allmählich ab. Dies ist besonders kritisch in Anwendungen wie der Verarbeitung langer Videos. In diesem Paper stellen wir eine Language Repository (LangRepo) für LLMs vor, die präzise und strukturierte Informationen als interpretierbare (d. h. rein textbasierte) Darstellung aufrechterhält. Unser Repository wird iterativ anhand von mehrskaligen Video-Chunk-Teilen aktualisiert. Wir führen Schreib- und Leseoperationen ein, die darauf abzielen, Redundanzen im Text zu reduzieren und Informationen auf verschiedenen zeitlichen Skalen zu extrahieren. Der vorgeschlagene Rahmen wird an zero-shot Visual Question Answering Benchmarks wie EgoSchema, NExT-QA, IntentQA und NExT-GQA evaluiert und zeigt dabei state-of-the-art Ergebnisse für seine Größe. Der Quellcode ist unter https://github.com/kkahatapitiya/LangRepo verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Sprach-Repository für die Verständnislangen Videos | Paper | HyperAI