HyperAIHyperAI
vor 2 Monaten

Die Vokabularisierung egozentrischer Aktionen

Dibyadip Chatterjee; Fadime Sener; Shugao Ma; Angela Yao
Die Vokabularisierung egozentrischer Aktionen
Abstract

Menschliche Handlungen in egozentrischen Videos sind häufig Hand-Objekt-Interaktionen, die aus einem Verb (durch die Hand ausgeführt) und einem Objekt bestehen. Trotz ihrer umfangreichen Erweiterung stellen egozentrische Datensätze noch zwei Einschränkungen dar: die Sparsamkeit von Aktionenkompositionen und eine abgeschlossene Menge interagierender Objekte. Dieses Papier schlägt eine neue Aufgabe zur offenen Vokabularerkennung von Aktionen vor. Gegeben ist eine Menge von Verben und Objekten, die während des Trainings beobachtet wurden; das Ziel besteht darin, die Verben auf ein offenes Vokabular von Aktionen mit bekannten und neuen Objekten zu verallgemeinern. Zu diesem Zweck entkoppeln wir die Vorhersage von Verben und Objekten durch einen objektunabhängigen Verbencoder und einen promptbasierten Objektencoder. Die Prompting-Methode nutzt CLIP-Darstellungen, um ein offenes Vokabular interagierender Objekte vorherzusagen. Wir erstellen Benchmarks für offene Vokabulare auf den Datensätzen EPIC-KITCHENS-100 und Assembly101; während geschlossene Aktionserkennungsverfahren nicht verallgemeinern können, erweist sich unser vorgeschlagenes Verfahren als effektiv. Darüber hinaus übertrifft unser Objektencoder bei der Erkennung neuer interagierender Objekte erheblich existierende Methoden der offenen-Vokabular-Bilderkennung.