il y a 2 mois

Classification vidéo efficace avec moins d'images

Shweta Bhardwaj; Mukundhan Srinivasan; Mitesh M. Khapra

Résumé

Récemment, il y a eu un grand intérêt pour la construction de modèles compacts pour la classification vidéo, qui ont une empreinte mémoire faible (<1 Go). Bien que ces modèles soient compacts, ils fonctionnent généralement par l'application répétée d'une petite matrice de poids à tous les cadres d'une vidéo. Par exemple, les méthodes basées sur les réseaux neuronaux récurrents calculent un état caché pour chaque cadre de la vidéo en utilisant une matrice de poids récurrente. De même, les méthodes basées sur le regroupement et l'agrégation, telles que NetVLAD, disposent d'une matrice de regroupement apprenable qui est utilisée pour attribuer des clusters doux à chaque cadre de la vidéo. Comme ces modèles examinent chaque cadre de la vidéo, le nombre d'opérations en virgule flottante (FLOPs) reste important même si l'empreinte mémoire est faible.Nous nous concentrons sur la construction de modèles de classification vidéo efficaces en termes de calcul, qui traitent moins de cadres et donc ont moins de FLOPs. De manière similaire aux modèles efficaces en termes de mémoire, nous utilisons l'idée de distillation, mais dans un contexte différent. Plus précisément, dans notre cas, un modèle enseignant gourmand en calcul qui examine tous les cadres de la vidéo est utilisé pour entraîner un modèle élève efficace en termes de calcul qui ne regarde qu'une petite fraction des cadres de la vidéo. Cela contraste avec le cadre typique d'un enseignant-élève efficace en termes de mémoire, où tant l'enseignant que l'élève examinent tous les cadres de la vidéo, mais l'élève a moins de paramètres. Notre travail complète ainsi les recherches sur la classification vidéo efficace en termes de mémoire.Nous effectuons une évaluation approfondie avec trois types de modèles pour la classification vidéo : (i) modèles récurrents (ii) modèles basés sur le regroupement et l'agrégation (iii) modèles basés sur le regroupement et l'agrégation efficaces en termes de mémoire. Nous montrons que dans chacun de ces cas, un enseignant qui voit tout peut être utilisé pour entraîner un élève qui voit très peu. Nous démontrons que le réseau neuronal élève proposé peut réduire le temps d'inférence de 30 % et le nombre de FLOPs d'environ 90 % avec une baisse négligeable des performances.