X3D : Expansion des architectures pour une reconnaissance vidéo efficace

Cet article présente X3D, une famille de réseaux vidéo efficaces qui étendent progressivement une architecture de classification d’images 2D très légère selon plusieurs axes du réseau — espace, temps, largeur et profondeur. Inspirés par les méthodes de sélection de caractéristiques en apprentissage automatique, nous utilisons une approche simple d’expansion progressive du réseau, qui étend un seul axe à chaque étape, afin d’obtenir un excellent compromis entre précision et complexité. Pour adapter X3D à une complexité cible donnée, nous appliquons une expansion progressive vers l’avant suivie d’une contraction vers l’arrière. X3D atteint des performances de pointe tout en nécessitant 4,8 fois moins d’opérations de multiplication-addition et 5,5 fois moins de paramètres que les travaux antérieurs pour une précision similaire. Notre constat le plus surprenant est que des réseaux à haute résolution spatio-temporelle peuvent obtenir de bons résultats tout en étant extrêmement légers en termes de largeur du réseau et de nombre de paramètres. Nous rapportons une précision compétitive à une efficacité sans précédent sur des benchmarks de classification et de détection vidéo. Le code sera disponible à l’adresse suivante : https://github.com/facebookresearch/SlowFast