Video To Image Affordance Grounding

"Video-to-image Affordance Grounding" est une sous-tâche dans le domaine de la vision par ordinateur qui vise à analyser les régions d'interaction des mains dans des vidéos de démonstration afin de générer des cartes thermiques correspondantes sur des images cibles et d'annoter des actions opérationnelles spécifiques (comme appuyer, tourner, etc.). Cette tâche permet de localiser précisément les parties opérables des objets et leurs fonctions, ce qui présente une valeur d'application significative pour la manipulation robotique, l'interaction homme-machine et les technologies de réalité augmentée.

EPIC-Hotspot

Afformer

OPRA

OPRA (28x28)