HyperAIHyperAI

Command Palette

Search for a command to run...

EVEREST: Effizienter Maskierter Video-Autoencoder durch Entfernung redundanter räumlich-zeitlicher Token

Sunil Hwang Jaehong Yoon Youngwan Lee Sung Ju Hwang

Zusammenfassung

Maskierte Video-Autoencoder (MVA) haben durch ihre erheblich bessere Leistung im Vergleich zu früheren Methoden der Videodarstellungslernung ihr Potenzial gezeigt. Allerdings verschwenden sie aufgrund zufälliger Maskierungsstrategien eine übermäßige Menge an Rechenleistung und Speicher, indem sie uninformativen Tokens/Frames vorhersagen (z.B. mehr als 16 Knoten mit 128 NVIDIA A100 GPUs). Um dieses Problem zu lösen, nutzen wir die unterschiedliche Informationsdichte der Patches in Videos und schlagen EVEREST vor, einen überraschend effizienten MVA-Ansatz für das Lernen von Videodarstellungen, der Tokens mit reichhaltigen Bewegungsmerkmalen identifiziert und uninformative Tokens während des Vortrainings und Feinabstimmens verwirft. Wir stellen außerdem eine informationsintensive Frame-Auswahlstrategie vor, die es dem Modell ermöglicht, sich auf informative und kausale Frames zu konzentrieren, wobei Redundanzen minimiert werden. Unsere Methode reduziert die Rechen- und Speicheranforderungen des MVA erheblich, sodass Vortraining und Feinabstimmung auf einem einzelnen Rechner mit 8 GPUs durchgeführt werden können, während gleichwertige Leistungen wie bei rechen- und speicherintensiven Baselines auf verschiedenen Benchmarks sowie dem nicht kurationierten Ego4D-Datensatz erzielt werden. Wir hoffen, dass unsere Arbeit dazu beiträgt, die Hürden für weitere Forschungen im Bereich der Videoverarbeitung zu senken.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp