MovieChat+: frageorientierte spärliche Speicherung für die Antwort auf Fragen zu langen Videos

Kürzlich ermöglicht die Integration von Video-Grundmodellen und großen Sprachmodellen die Entwicklung von Video-Verständnissystemen, die die Einschränkungen spezifischer, vordefinierter visueller Aufgaben überwinden können. Bestehende Ansätze setzen entweder auf komplexe räumlich-zeitliche Module oder verlassen sich stark auf zusätzliche Wahrnehmungsmodelle zur Extraktion zeitlicher Merkmale für das Video-Verständnis und zeigen lediglich gute Leistung bei kurzen Videos. Bei langen Videos steigen die rechnerische Komplexität und die Speicherkosten aufgrund langfristiger zeitlicher Verbindungen erheblich und stellen zusätzliche Herausforderungen dar. Ausnutzend des Atkinson-Shiffrin-Gedächtnismodells, bei dem Tokens in Transformers als Träger von Gedächtnisinhalten dienen und in Kombination mit unserem speziell entwickelten Gedächtnismechanismus eingesetzt werden, schlagen wir MovieChat vor, um diese Herausforderungen zu bewältigen. Wir erweitern vortrainierte multimodale große Sprachmodelle zur Verarbeitung langer Videos, ohne zusätzliche trainierbare zeitliche Module einzubinden, und verwenden dabei einen Zero-Shot-Ansatz. MovieChat erreicht eine state-of-the-art-Leistung im Verständnis langer Videos und wird begleitet von der veröffentlichten MovieChat-1K-Benchmark-Datenbank mit 1.000 langen Videos, 2.000 zeitlichen Grundlagen-Etiketten und 14.000 manuellen Annotationen zur Validierung der Wirksamkeit unserer Methode. Der Quellcode sowie die Datensätze sind über folgenden Link zugänglich: https://github.com/rese1f/MovieChat.