HyperAIHyperAI

Command Palette

Search for a command to run...

Ouvrir le vocabulaire des actions égocentriques

Dibyadip Chatterjee; Fadime Sener; Shugao Ma; Angela Yao

Résumé

Les actions humaines dans les vidéos égocentriques sont souvent des interactions main-objet composées d'un verbe (exécuté par la main) appliqué à un objet. Malgré leur extension considérable, les jeux de données égocentriques font toujours face à deux limitations : la rareté des compositions d'actions et un ensemble fermé d'objets interactifs. Cet article propose une nouvelle tâche de reconnaissance d'actions avec vocabulaire ouvert. Étant donné un ensemble de verbes et d'objets observés lors de l'entraînement, l'objectif est de généraliser les verbes à un vocabulaire ouvert d'actions impliquant des objets vus et nouveaux. À cette fin, nous dissocions les prédictions des verbes et des objets grâce à un encodeur de verbes indifférent aux objets et un encodeur d'objets basé sur des prompts. Les prompts exploitent les représentations CLIP pour prédire un vocabulaire ouvert d'objets interactifs. Nous créons des benchmarks avec vocabulaire ouvert sur les jeux de données EPIC-KITCHENS-100 et Assembly101 ; alors que les méthodes fermées en matière d'actions échouent à généraliser, notre méthode proposée s'avère efficace. De plus, notre encodeur d'objets surpasse significativement les méthodes existantes de reconnaissance visuelle avec vocabulaire ouvert en ce qui concerne la reconnaissance d'objets interactifs nouveaux.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp