Une méthode multigrille pour former efficacement des modèles vidéo

L’entraînement de modèles vidéo profonds compétitifs est d’un ordre de grandeur plus lent que celui de leurs homologues modèles d’image. Ce ralentissement entraîne des cycles de recherche longs, ce qui freine l’avancement de la recherche en compréhension vidéo. Conformément à la pratique standard d’entraînement des modèles d’image, l’entraînement des modèles vidéo suppose une taille de mini-batch fixe : un nombre spécifique de clips, de trames et une taille spatiale prédéfinie. Mais quelle est la forme optimale ? Les modèles à haute résolution donnent de bons résultats, mais s’entraînent lentement. Les modèles à basse résolution s’entraînent plus rapidement, mais sont moins précis. Inspirés par les méthodes multigrilles en optimisation numérique, nous proposons d’utiliser des formes de mini-batch variables, aux résolutions temporelles et spatiales différentes, ajustées selon un calendrier prédéfini. Ces différentes formes émergent par un resampling des données d’entraînement sur plusieurs grilles d’échantillonnage. L’entraînement est accéléré en augmentant la taille du mini-batch et le taux d’apprentissage lorsque les autres dimensions sont réduites. Nous démontrons empiriquement un calendrier multigrille général et robuste, qui permet une accélération significative de l’entraînement sans perte d’exactitude pour divers modèles (I3D, non-local, SlowFast), jeux de données (Kinetics, Something-Something, Charades) et configurations d’entraînement (avec ou sans pré-entraînement, sur 128 GPU ou sur 1 GPU). À titre d’exemple, la méthode multigrille proposée entraîne un réseau ResNet-50 SlowFast 4,5 fois plus vite (temps réel, même matériel) tout en améliorant l’exactitude de +0,8 % absolu sur Kinetics-400 par rapport à la méthode de référence. Le code est disponible en ligne.