vor 2 Monaten

MovieChat: Vom dichten Token zum spärlichen Gedächtnis für die Analyse langer Videos

Enxin Song; Wenhao Chai; Guanhong Wang; Yucheng Zhang; Haoyang Zhou; Feiyang Wu; Haozhe Chi; Xun Guo; Tian Ye; Yanting Zhang; Yan Lu; Jenq-Neng Hwang; Gaoang Wang

Details der Forschungsarbeit anzeigen

MovieChat: Vom dichten Token zum spärlichen Gedächtnis für die Analyse langer Videos

Abstract

Kürzlich konnte durch die Integration von Video-Grundmodellen und großen Sprachmodellen ein Videosatzverstehenssystem entwickelt werden, das die Einschränkungen spezifischer vordefinierter Sehtasks überwindet. Dennoch können bestehende Systeme nur Videos mit sehr wenigen Frames verarbeiten. Bei langen Videos stellen die Rechenkomplexität, der Speicherverbrauch und die langfristige zeitliche Verbindung zusätzliche Herausforderungen dar. Indem wir das Atkinson-Shiffrin-Gedächtnismodell nutzen und Tokens in Transformers als Träger des Gedächtnisses in Kombination mit unserem speziell entwickelten Gedächtnismechanismus einsetzen, schlagen wir MovieChat vor, um diese Herausforderungen zu bewältigen. MovieChat erzielt den aktuellen Stand der Technik bei der Verarbeitung langer Videos und wird begleitet vom veröffentlichten MovieChat-1K-Benchmark, der 1.000 lange Videos und 14.000 manuelle Annotationen zur Validierung der Effektivität unserer Methode enthält.