Localisation spatio-temporelle d’actions de bout en bout avec des transformateurs vidéo

Les modèles de localisation spatio-temporelle d'actions les plus performants utilisent des propositions externes de personnes et des banques de mémoire complexes. Nous proposons un modèle entièrement end-to-end, basé uniquement sur des transformers, qui ingère directement une vidéo en entrée et produit des tubelets -- une séquence de boîtes englobantes et des classes d'actions pour chaque image. Notre modèle flexible peut être entraîné avec une supervision de boîtes englobantes éparses sur des images individuelles ou avec des annotations complètes de tubelets. Dans les deux cas, il prédit des tubelets cohérents en sortie. De plus, notre modèle end-to-end n'a pas besoin de prétraitement supplémentaire sous forme de propositions ni de post-traitement en termes de suppression non maximale. Nous menons des expériences d'ablation approfondies et avançons considérablement l'état de l'art sur quatre différents benchmarks de localisation spatio-temporelle d'actions, tant avec des images clés éparses qu'avec des annotations complètes de tubelets.