HyperAIHyperAI

Command Palette

Search for a command to run...

AM Flow : Adaptateurs pour le traitement temporel dans la reconnaissance d'actions

Tanay Agrawal Abid Ali Antitza Dantcheva Francois Bremond

Résumé

Les modèles d'apprentissage profond, en particulier les modèles d'\textit{images}, ont récemment gagné en généralisation et en robustesse. Dans ce travail, nous proposons d'exploiter ces avancées dans le domaine de la \textit{classification vidéo}. Les modèles fondamentaux vidéo souffrent de l'exigence d'un préentraînement intensif et d'un temps de formation important. Pour atténuer ces limitations, nous proposons la méthode "\textit{Flux de Cartes d'Attention (AM Flow)}" pour les modèles d'images, une technique permettant d'identifier les pixels pertinents au mouvement dans chaque image vidéo entrante. Dans ce cadre, nous présentons deux méthodes pour calculer le flux AM, en fonction du mouvement de la caméra. Le flux AM permet la séparation du traitement spatial et temporel, tout en offrant des résultats améliorés par rapport au traitement spatio-temporel combiné (comme dans les modèles vidéo). Les adaptateurs, l'une des techniques populaires pour le transfert d'apprentissage efficace en termes de paramètres, facilitent l'intégration du flux AM dans des modèles d'images préentraînés, atténuant ainsi la nécessité d'un réajustement complet. Nous étendons les adaptateurs aux "\textit{adaptateurs de traitement temporel}" en intégrant une unité de traitement temporel dans les adaptateurs. Notre travail atteint une convergence plus rapide, réduisant ainsi le nombre d'époques nécessaires pour l'entraînement. De plus, nous dotons un modèle d'image de la capacité d'obtenir des résultats à l'état de l'art sur des jeux de données populaires de reconnaissance d'actions. Cela réduit le temps d'entraînement et simplifie le préentraînement. Nous présentons des expériences sur les jeux de données Kinetics-400, Something-Something v2 et Toyota Smarthome, mettant en évidence des résultats à l'état de l'art ou comparables.Note : - "Image" est traduit par \textit{images} car c'est un terme couramment utilisé en français.- "Video" est traduit par \textit{vidéo} pour la même raison.- "Action recognition datasets" est traduit par "jeux de données de reconnaissance d'actions", qui est une expression courante en français dans ce domaine.- Les noms propres tels que "Kinetics-400", "Something-Something v2" et "Toyota Smarthome" sont conservés tels quels car ils sont généralement utilisés sans traduction.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp