HyperAIHyperAI

Command Palette

Search for a command to run...

Classification vidéo efficace avec moins d'images

Shweta Bhardwaj Mukundhan Srinivasan Mitesh M. Khapra

Résumé

Récemment, il y a eu un grand intérêt pour la construction de modèles compacts pour la classification vidéo, qui ont une empreinte mémoire faible (<1 Go). Bien que ces modèles soient compacts, ils fonctionnent généralement par l'application répétée d'une petite matrice de poids à tous les cadres d'une vidéo. Par exemple, les méthodes basées sur les réseaux neuronaux récurrents calculent un état caché pour chaque cadre de la vidéo en utilisant une matrice de poids récurrente. De même, les méthodes basées sur le regroupement et l'agrégation, telles que NetVLAD, disposent d'une matrice de regroupement apprenable qui est utilisée pour attribuer des clusters doux à chaque cadre de la vidéo. Comme ces modèles examinent chaque cadre de la vidéo, le nombre d'opérations en virgule flottante (FLOPs) reste important même si l'empreinte mémoire est faible.Nous nous concentrons sur la construction de modèles de classification vidéo efficaces en termes de calcul, qui traitent moins de cadres et donc ont moins de FLOPs. De manière similaire aux modèles efficaces en termes de mémoire, nous utilisons l'idée de distillation, mais dans un contexte différent. Plus précisément, dans notre cas, un modèle enseignant gourmand en calcul qui examine tous les cadres de la vidéo est utilisé pour entraîner un modèle élève efficace en termes de calcul qui ne regarde qu'une petite fraction des cadres de la vidéo. Cela contraste avec le cadre typique d'un enseignant-élève efficace en termes de mémoire, où tant l'enseignant que l'élève examinent tous les cadres de la vidéo, mais l'élève a moins de paramètres. Notre travail complète ainsi les recherches sur la classification vidéo efficace en termes de mémoire.Nous effectuons une évaluation approfondie avec trois types de modèles pour la classification vidéo : (i) modèles récurrents (ii) modèles basés sur le regroupement et l'agrégation (iii) modèles basés sur le regroupement et l'agrégation efficaces en termes de mémoire. Nous montrons que dans chacun de ces cas, un enseignant qui voit tout peut être utilisé pour entraîner un élève qui voit très peu. Nous démontrons que le réseau neuronal élève proposé peut réduire le temps d'inférence de 30 % et le nombre de FLOPs d'environ 90 % avec une baisse négligeable des performances.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Classification vidéo efficace avec moins d'images | Articles | HyperAI