HyperAIHyperAI
il y a 17 jours

2D ou pas 2D ? Sélection adaptative de convolution 3D pour une reconnaissance vidéo efficace

Hengduo Li, Zuxuan Wu, Abhinav Shrivastava, Larry S. Davis
2D ou pas 2D ? Sélection adaptative de convolution 3D pour une reconnaissance vidéo efficace
Résumé

Les réseaux de convolution 3D sont largement utilisés pour la reconnaissance vidéo. Bien qu’ils atteignent des performances remarquables sur les benchmarks standards, ils traitent une séquence d’images par convolution 3D, ce qui les rend très exigeants en termes de calcul. En exploitant les grandes variations observées entre différentes vidéos, nous introduisons Ada3D, un cadre de calcul conditionnel qui apprend des politiques d’utilisation spécifiques à chaque instance afin de déterminer les trames et les couches de convolution à utiliser dans un réseau 3D. Ces politiques sont déduites à partir d’un réseau de sélection léger à deux têtes, conditionné sur chaque clip vidéo d’entrée. Ensuite, seules les trames et les convolutions sélectionnées par ce réseau sont utilisées dans le modèle 3D pour générer les prédictions. Le réseau de sélection est optimisé à l’aide de méthodes de gradient de politique, afin de maximiser une récompense qui encourage à produire des prédictions correctes tout en limitant la consommation de calcul. Nous menons des expériences sur trois benchmarks de reconnaissance vidéo et démontrons que notre méthode atteint des précisions comparables à celles des modèles 3D de pointe, tout en nécessitant entre 20 % et 50 % de calcul en moins sur différentes bases de données. Nous montrons également que les politiques apprises sont transférables, et que Ada3D est compatible avec divers architectures de base (backbones) ainsi qu’avec des approches modernes de sélection de clips. L’analyse qualitative indique que notre méthode affecte moins de convolutions 3D et de trames aux entrées « statiques », tout en en utilisant davantage pour les clips riches en mouvement.