Open Vocabulary Action Recognition
Open-Vocabulary Action Recognition (OVAR) ist eine avantgardistische Aufgabe im Bereich der Computer Vision, die das Ziel verfolgt, über den vordefinierten Satz von Aktionen hinauszugehen, die während des Trainings gesehen wurden. Dies ermöglicht es dem System, generalisieren und unbekannte Aktionen zu erkennen. OVAR erreicht die Aktionserkennung (Verben oder Verb-Objekt-Paare) durch die Bereitstellung textbasierter Abfragen zur Inferenzzeit, ohne dass vorheriges Wissen über diese Aktionen während der Trainingsphase erforderlich ist. Der Anwendungswert von OVAR liegt in seiner Fähigkeit, vielfältigere und komplexere reale Szenarien zu bewältigen, was die Anpassungsfähigkeit und Robustheit visueller Systeme erheblich verbessert.