HyperAIHyperAI

Command Palette

Search for a command to run...

MovieChat: Vom dichten Token zum spärlichen Gedächtnis für die Analyse langer Videos

Zusammenfassung

Kürzlich konnte durch die Integration von Video-Grundmodellen und großen Sprachmodellen ein Videosatzverstehenssystem entwickelt werden, das die Einschränkungen spezifischer vordefinierter Sehtasks überwindet. Dennoch können bestehende Systeme nur Videos mit sehr wenigen Frames verarbeiten. Bei langen Videos stellen die Rechenkomplexität, der Speicherverbrauch und die langfristige zeitliche Verbindung zusätzliche Herausforderungen dar. Indem wir das Atkinson-Shiffrin-Gedächtnismodell nutzen und Tokens in Transformers als Träger des Gedächtnisses in Kombination mit unserem speziell entwickelten Gedächtnismechanismus einsetzen, schlagen wir MovieChat vor, um diese Herausforderungen zu bewältigen. MovieChat erzielt den aktuellen Stand der Technik bei der Verarbeitung langer Videos und wird begleitet vom veröffentlichten MovieChat-1K-Benchmark, der 1.000 lange Videos und 14.000 manuelle Annotationen zur Validierung der Effektivität unserer Methode enthält.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MovieChat: Vom dichten Token zum spärlichen Gedächtnis für die Analyse langer Videos | Paper | HyperAI