HyperAIHyperAI

Command Palette

Search for a command to run...

MeMViT: Memory-Augmented Multiscale Vision Transformer für effiziente langfristige Videobewertung

Chao-Yuan Wu Yanghao Li Karttikeya Mangalam Haoqi Fan Bo Xiong Jitendra Malik Christoph Feichtenhofer

Zusammenfassung

Während heutige Videoerkennungssysteme einzelne Bilder oder kurze Clips präzise analysieren können, sind sie bisher noch nicht in der Lage, über einen längeren Zeitraum hinweg Zusammenhänge herzustellen und zu reasoning zu nutzen. Die meisten bestehenden Videoarchitekturen können ohne Erreichen von Rechen- oder Speicherengpässen lediglich weniger als 5 Sekunden eines Videos verarbeiten.In diesem Paper stellen wir eine neue Strategie vor, um diese Herausforderung zu meistern. Im Gegensatz zu den meisten bestehenden Ansätzen, die versuchen, mehr Frames gleichzeitig zu verarbeiten, schlagen wir vor, Videos in online-artiger Weise zu verarbeiten und in jeder Iteration „Speicher“ (memory) zu cachen. Durch diesen Speicher kann das Modell auf vorherige Kontextinformationen zurückgreifen, um langfristige Modellierung zu ermöglichen, und zwar mit nur marginalen zusätzlichen Kosten. Auf Basis dieser Idee entwickeln wir MeMViT, einen memory-augmentierten Multiscale Vision Transformer, dessen zeitliche Reichweite 30-mal länger ist als die bestehender Modelle – und das mit lediglich 4,5 % mehr Rechenaufwand. Traditionelle Methoden müssten dafür mehr als 3.000 % mehr Rechenleistung aufwenden. Auf einer Vielzahl von Benchmarks erzielt MeMViT konsistent deutliche Verbesserungen der Erkennungsgenauigkeit dank der erweiterten zeitlichen Reichweite. MeMViT erreicht state-of-the-art Ergebnisse auf den Datensätzen AVA, EPIC-Kitchens-100 zur Aktionsklassifikation sowie zur Aktionsvorhersage. Der Quellcode und die Modelle sind unter https://github.com/facebookresearch/memvit verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp