HyperAIHyperAI

Command Palette

Search for a command to run...

Localisation spatio-temporelle d’actions de bout en bout avec des transformateurs vidéo

Alexey Gritsenko; Xuehan Xiong; Josip Djolonga; Mostafa Dehghani; Chen Sun; Mario Lučić; Cordelia Schmid; Anurag Arnab

Résumé

Les modèles de localisation spatio-temporelle d'actions les plus performants utilisent des propositions externes de personnes et des banques de mémoire complexes. Nous proposons un modèle entièrement end-to-end, basé uniquement sur des transformers, qui ingère directement une vidéo en entrée et produit des tubelets -- une séquence de boîtes englobantes et des classes d'actions pour chaque image. Notre modèle flexible peut être entraîné avec une supervision de boîtes englobantes éparses sur des images individuelles ou avec des annotations complètes de tubelets. Dans les deux cas, il prédit des tubelets cohérents en sortie. De plus, notre modèle end-to-end n'a pas besoin de prétraitement supplémentaire sous forme de propositions ni de post-traitement en termes de suppression non maximale. Nous menons des expériences d'ablation approfondies et avançons considérablement l'état de l'art sur quatre différents benchmarks de localisation spatio-temporelle d'actions, tant avec des images clés éparses qu'avec des annotations complètes de tubelets.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp