HyperAIHyperAI
il y a 2 mois

Ouvrir le vocabulaire des actions égocentriques

Dibyadip Chatterjee; Fadime Sener; Shugao Ma; Angela Yao
Ouvrir le vocabulaire des actions égocentriques
Résumé

Les actions humaines dans les vidéos égocentriques sont souvent des interactions main-objet composées d'un verbe (exécuté par la main) appliqué à un objet. Malgré leur extension considérable, les jeux de données égocentriques font toujours face à deux limitations : la rareté des compositions d'actions et un ensemble fermé d'objets interactifs. Cet article propose une nouvelle tâche de reconnaissance d'actions avec vocabulaire ouvert. Étant donné un ensemble de verbes et d'objets observés lors de l'entraînement, l'objectif est de généraliser les verbes à un vocabulaire ouvert d'actions impliquant des objets vus et nouveaux. À cette fin, nous dissocions les prédictions des verbes et des objets grâce à un encodeur de verbes indifférent aux objets et un encodeur d'objets basé sur des prompts. Les prompts exploitent les représentations CLIP pour prédire un vocabulaire ouvert d'objets interactifs. Nous créons des benchmarks avec vocabulaire ouvert sur les jeux de données EPIC-KITCHENS-100 et Assembly101 ; alors que les méthodes fermées en matière d'actions échouent à généraliser, notre méthode proposée s'avère efficace. De plus, notre encodeur d'objets surpasse significativement les méthodes existantes de reconnaissance visuelle avec vocabulaire ouvert en ce qui concerne la reconnaissance d'objets interactifs nouveaux.