HyperAIHyperAI
il y a 17 jours

Entraînement d'un grand modèle vidéo sur une seule machine en une journée

Yue Zhao, Philipp Krähenbühl
Entraînement d'un grand modèle vidéo sur une seule machine en une journée
Résumé

Les vidéos sont volumineuses, complexes à prétraiter et lentes à entraîner. Les modèles vidéo à grande échelle les plus avancés actuellement sont entraînés sur des grilles de 32 GPU ou plus pendant plusieurs jours. En conséquence, le domaine académique a largement cédé la charge de l'entraînement des grands modèles vidéo à l'industrie. Dans cet article, nous montrons comment entraîner un modèle vidéo d'avant-garde sur une seule machine équipée de huit GPU grand public en une journée. Nous identifions trois goulets d'étranglement : l’I/O, le traitement CPU et le calcul GPU, et optimisons chacun d’eux. Le résultat est une chaîne d’entraînement vidéo hautement efficace. Pour des architectures comparables, notre pipeline atteint des précisions supérieures avec seulement $\frac{1}{8}$ du coût computationnel par rapport aux travaux antérieurs. Le code est disponible à l’adresse suivante : https://github.com/zhaoyue-zephyrus/AVION.