Open Vocabulary Action Recognition
La Reconnaissance d'Actions à Vocabulaire Ouvert (OVAR) est une tâche de pointe dans le domaine de la vision par ordinateur qui vise à dépasser l'ensemble prédéfini d'actions observées lors de l'entraînement, permettant au système de généraliser et de reconnaître des actions inconnues. Cette tâche réalise la reconnaissance d'actions (verbes ou paires verbe-objet) en fournissant des requêtes textuelles au moment de l'inférence, sans nécessiter de connaissances préalables sur ces actions pendant la phase d'entraînement. La valeur d'application de l'OVAR réside dans sa capacité à gérer des scénarios réels plus diversifiés et complexes, améliorant ainsi l'adaptabilité et la robustesse des systèmes visuels.