Localisation temporelle d’actions en few-shot avec un transformateur adaptatif à la requête

Les travaux existants en localisation temporelle d'actions (TAL) reposent sur un grand nombre de vidéos d'entraînement avec des annotations exhaustives au niveau des segments, ce qui les empêche de s'étendre à de nouvelles classes. Pour résoudre ce problème, la localisation temporelle d'actions à faible supervision (FS-TAL) vise à adapter un modèle à une nouvelle classe représentée par aussi peu qu'une seule vidéo. Les méthodes actuelles de FS-TAL supposent l'utilisation de vidéos d'entraînement tronquées pour les nouvelles classes. Cependant, cette hypothèse est non seulement irréaliste car les actions sont généralement capturées dans des vidéos non tronquées, mais elle ignore également les segments de fond contenant des indices contextuels essentiels pour la segmentation des actions au premier plan.Dans le cadre de cette étude, nous proposons tout d'abord un nouveau cadre pour la FS-TAL en utilisant des vidéos d'entraînement non tronquées. Ensuite, nous introduisons un modèle novateur de FS-TAL qui maximise le transfert de connaissances des classes d'entraînement tout en permettant une adaptation dynamique du modèle à la fois à la nouvelle classe et à chaque vidéo de cette classe simultanément. Ceci est réalisé grâce à l'introduction d'un Transformers adaptatif aux requêtes dans le modèle.Des expériences approfondies sur deux benchmarks de localisation d'actions montrent que notre méthode peut surpasser significativement toutes les alternatives de pointe dans les scénarios mono-domaine et multi-domaines. Le code source est disponible sur https://github.com/sauradip/fewshotQAT.