vor 9 Tagen

MeMViT: Memory-Augmented Multiscale Vision Transformer für effiziente langfristige Videobewertung

Chao-Yuan Wu, Yanghao Li, Karttikeya Mangalam, Haoqi Fan, Bo Xiong, Jitendra Malik, Christoph Feichtenhofer

Abstract

Während heutige Videoerkennungssysteme einzelne Bilder oder kurze Clips präzise analysieren können, sind sie bisher noch nicht in der Lage, über einen längeren Zeitraum hinweg Zusammenhänge herzustellen und zu reasoning zu nutzen. Die meisten bestehenden Videoarchitekturen können ohne Erreichen von Rechen- oder Speicherengpässen lediglich weniger als 5 Sekunden eines Videos verarbeiten.In diesem Paper stellen wir eine neue Strategie vor, um diese Herausforderung zu meistern. Im Gegensatz zu den meisten bestehenden Ansätzen, die versuchen, mehr Frames gleichzeitig zu verarbeiten, schlagen wir vor, Videos in online-artiger Weise zu verarbeiten und in jeder Iteration „Speicher“ (memory) zu cachen. Durch diesen Speicher kann das Modell auf vorherige Kontextinformationen zurückgreifen, um langfristige Modellierung zu ermöglichen, und zwar mit nur marginalen zusätzlichen Kosten. Auf Basis dieser Idee entwickeln wir MeMViT, einen memory-augmentierten Multiscale Vision Transformer, dessen zeitliche Reichweite 30-mal länger ist als die bestehender Modelle – und das mit lediglich 4,5 % mehr Rechenaufwand. Traditionelle Methoden müssten dafür mehr als 3.000 % mehr Rechenleistung aufwenden. Auf einer Vielzahl von Benchmarks erzielt MeMViT konsistent deutliche Verbesserungen der Erkennungsgenauigkeit dank der erweiterten zeitlichen Reichweite. MeMViT erreicht state-of-the-art Ergebnisse auf den Datensätzen AVA, EPIC-Kitchens-100 zur Aktionsklassifikation sowie zur Aktionsvorhersage. Der Quellcode und die Modelle sind unter https://github.com/facebookresearch/memvit verfügbar.