Détection d’actions temporelles bout-en-bout avec 1 milliard de paramètres sur 1000 trames

Récemment, la détection d’actions temporelles (TAD) a connu une amélioration significative grâce à l’entraînement end-to-end. Toutefois, en raison du goulot d’étranglement mémoire, seules les modèles à taille limitée et utilisant des volumes de données restreints peuvent bénéficier de cet entraînement end-to-end, ce qui restreint inévitablement les performances de la TAD. Dans cet article, nous réduisons la consommation mémoire liée à l’entraînement end-to-end, permettant ainsi d’augmenter la taille du modèle de base (backbone) à 1 milliard de paramètres et la longueur des vidéos d’entrée à 1 536 cadres, ce qui conduit à une amélioration notable de la performance de détection. Le cœur de notre approche réside dans le module léger novateur que nous proposons, appelé adaptateur informatif temporel (TIA), qui réduit la mémoire nécessaire à l’entraînement. Grâce au TIA, nous libérons le modèle de grande taille de la nécessité d’apprendre à s’adapter à la tâche de TAD, en ne mettant à jour que les paramètres du TIA. Le TIA améliore également les représentations pour la TAD en agrégant temporellement le contexte provenant des cadres voisins tout au long du modèle. Nous évaluons notre modèle sur quatre jeux de données représentatifs. Grâce à notre conception efficace, nous parvenons à entraîner de manière end-to-end sur VideoMAEv2-giant et obtenons un score mAP de 75,4 % sur THUMOS14, devenant ainsi le premier modèle end-to-end à surpasser les meilleures méthodes basées sur des caractéristiques. Le code est disponible à l’adresse suivante : https://github.com/sming256/AdaTAD.