Hybrid Relation Guided Set Matching pour la Reconnaissance d'Actions en Few-shot

Les méthodes actuelles de reconnaissance d'actions à partir de quelques exemples atteignent des performances impressionnantes en apprenant des caractéristiques discriminantes pour chaque vidéo via une formation épisodique et en concevant diverses stratégies d'alignement temporel. Néanmoins, elles sont limitées par le fait que (a) l'apprentissage de caractéristiques individuelles sans prendre en compte la tâche globale peut entraîner la perte des informations les plus pertinentes dans l'épisode en cours, et (b) ces stratégies d'alignement peuvent échouer dans les cas mal alignés. Pour surmonter ces deux limitations, nous proposons une nouvelle approche de correspondance d'ensembles guidée par des relations hybrides (HyRSM), qui intègre deux composants clés : un module de relations hybrides et une métrique de correspondance d'ensembles. Le but du module de relations hybrides est d'apprendre des plongements spécifiques à la tâche en exploitant pleinement les relations associées au sein et entre les vidéos dans un épisode. Sur la base de ces caractéristiques spécifiques à la tâche, nous reformulons la mesure de distance entre les vidéos requêtes et les vidéos supports comme un problème de correspondance d'ensembles, et nous concevons une métrique bidirectionnelle de Moyenne Hausdorff pour améliorer la résilience aux cas mal alignés. Par ce biais, le HyRSM proposé peut être très informatif et flexible pour prédire les catégories des requêtes dans un contexte à partir de quelques exemples. Nous évaluons HyRSM sur six benchmarks difficiles, et les résultats expérimentaux montrent sa supériorité par rapport aux méthodes de pointe avec une marge convaincante. Page du projet : https://hyrsm-cvpr2022.github.io/.