HyperAIHyperAI
vor 17 Tagen

Training eines großen Video-Modells auf einer einzigen Maschine innerhalb eines Tages

Yue Zhao, Philipp Krähenbühl
Training eines großen Video-Modells auf einer einzigen Maschine innerhalb eines Tages
Abstract

Videos sind groß, aufwändig vorzubereiten und langsam zu trainieren. Stand der Technik bei großen Video-Modellen wird auf Clustern mit 32 oder mehr GPUs über mehrere Tage trainiert. Als Folge dessen hat die Akademie die Entwicklung großer Video-Modelle weitgehend der Industrie überlassen. In diesem Paper zeigen wir, wie man ein state-of-the-art Video-Modell dennoch auf einer einzigen Maschine mit acht konsumierbaren GPUs innerhalb eines Tages trainieren kann. Wir identifizieren drei Engpässe – I/O, CPU und GPU-Berechnung – und optimieren jeden einzelnen. Das Ergebnis ist eine hoch-effiziente Video-Trainings-Pipeline. Für vergleichbare Architekturen erreicht unsere Pipeline höhere Genauigkeiten mit nur $\frac{1}{8}$ der Rechenleistung im Vergleich zu vorherigen Ansätzen. Der Quellcode ist unter https://github.com/zhaoyue-zephyrus/AVION verfügbar.