MovieChat: Vom dichten Token zum spärlichen Gedächtnis für die Analyse langer Videos

Kürzlich konnte durch die Integration von Video-Grundmodellen und großen Sprachmodellen ein Videosatzverstehenssystem entwickelt werden, das die Einschränkungen spezifischer vordefinierter Sehtasks überwindet. Dennoch können bestehende Systeme nur Videos mit sehr wenigen Frames verarbeiten. Bei langen Videos stellen die Rechenkomplexität, der Speicherverbrauch und die langfristige zeitliche Verbindung zusätzliche Herausforderungen dar. Indem wir das Atkinson-Shiffrin-Gedächtnismodell nutzen und Tokens in Transformers als Träger des Gedächtnisses in Kombination mit unserem speziell entwickelten Gedächtnismechanismus einsetzen, schlagen wir MovieChat vor, um diese Herausforderungen zu bewältigen. MovieChat erzielt den aktuellen Stand der Technik bei der Verarbeitung langer Videos und wird begleitet vom veröffentlichten MovieChat-1K-Benchmark, der 1.000 lange Videos und 14.000 manuelle Annotationen zur Validierung der Effektivität unserer Methode enthält.