HyperAIHyperAI

Command Palette

Search for a command to run...

Ein Mehrgitterverfahren zur effizienten Trainierung von Videomodellen

Chao-Yuan Wu Ross Girshick Kaiming He Christoph Feichtenhofer Philipp Krähenbühl

Zusammenfassung

Das Training wettbewerbsfähiger tiefgehender Video-Modelle ist um eine Größenordnung langsamer als das Training vergleichbarer Bildmodelle. Langsame Trainingszyklen führen zu verlängerten Forschungsphasen und behindern somit den Fortschritt in der Forschung zum Verständnis von Videos. Wie üblich bei der Ausbildung von Bildmodellen wird beim Training von Video-Modellen eine feste Mini-Batch-Form angenommen: eine bestimmte Anzahl an Clips, Frames und räumlicher Auflösung. Doch welche Form ist optimal? Hochauflösende Modelle erzielen gute Ergebnisse, sind aber langsam im Training. Niedrigauflösende Modelle trainieren schneller, sind jedoch weniger genau. Inspiriert von Multigrid-Methoden der numerischen Optimierung schlagen wir vor, variable Mini-Batch-Formen mit unterschiedlichen räumlich-zeitlichen Auflösungen zu verwenden, die gemäß einem festgelegten Zeitplan variiert werden. Die unterschiedlichen Formen ergeben sich durch erneutes Abtasten der Trainingsdaten auf mehreren Abtastgittern. Durch Erhöhung der Mini-Batch-Größe und der Lernrate bei Verkleinerung der anderen Dimensionen wird das Training beschleunigt. Wir zeigen empirisch, dass ein allgemeiner und robuster Gitterschema eine erhebliche, out-of-the-box-Trainingsbeschleunigung ermöglicht, ohne dabei die Genauigkeit bei verschiedenen Modellen (I3D, Non-Local, SlowFast), Datensätzen (Kinetics, Something-Something, Charades) und Trainingskonfigurationen (mit und ohne Vortrainierung, 128 GPUs oder 1 GPU) zu beeinträchtigen. Als illustratives Beispiel trainiert die vorgeschlagene Multigrid-Methode ein ResNet-50 SlowFast-Netzwerk 4,5-mal schneller (Wall-Clock-Zeit, gleiche Hardware) und erreicht zudem eine verbesserte Genauigkeit (+0,8 Prozentpunkte absolut) auf Kinetics-400 im Vergleich zur Baseline-Trainingsmethode. Der Quellcode ist online verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp