Ein Mehrgitterverfahren zur effizienten Trainierung von Videomodellen

Das Training wettbewerbsfähiger tiefgehender Video-Modelle ist um eine Größenordnung langsamer als das Training vergleichbarer Bildmodelle. Langsame Trainingszyklen führen zu verlängerten Forschungsphasen und behindern somit den Fortschritt in der Forschung zum Verständnis von Videos. Wie üblich bei der Ausbildung von Bildmodellen wird beim Training von Video-Modellen eine feste Mini-Batch-Form angenommen: eine bestimmte Anzahl an Clips, Frames und räumlicher Auflösung. Doch welche Form ist optimal? Hochauflösende Modelle erzielen gute Ergebnisse, sind aber langsam im Training. Niedrigauflösende Modelle trainieren schneller, sind jedoch weniger genau. Inspiriert von Multigrid-Methoden der numerischen Optimierung schlagen wir vor, variable Mini-Batch-Formen mit unterschiedlichen räumlich-zeitlichen Auflösungen zu verwenden, die gemäß einem festgelegten Zeitplan variiert werden. Die unterschiedlichen Formen ergeben sich durch erneutes Abtasten der Trainingsdaten auf mehreren Abtastgittern. Durch Erhöhung der Mini-Batch-Größe und der Lernrate bei Verkleinerung der anderen Dimensionen wird das Training beschleunigt. Wir zeigen empirisch, dass ein allgemeiner und robuster Gitterschema eine erhebliche, out-of-the-box-Trainingsbeschleunigung ermöglicht, ohne dabei die Genauigkeit bei verschiedenen Modellen (I3D, Non-Local, SlowFast), Datensätzen (Kinetics, Something-Something, Charades) und Trainingskonfigurationen (mit und ohne Vortrainierung, 128 GPUs oder 1 GPU) zu beeinträchtigen. Als illustratives Beispiel trainiert die vorgeschlagene Multigrid-Methode ein ResNet-50 SlowFast-Netzwerk 4,5-mal schneller (Wall-Clock-Zeit, gleiche Hardware) und erreicht zudem eine verbesserte Genauigkeit (+0,8 Prozentpunkte absolut) auf Kinetics-400 im Vergleich zur Baseline-Trainingsmethode. Der Quellcode ist online verfügbar.