HyperAIHyperAI

Command Palette

Search for a command to run...

Die Vokabularisierung egozentrischer Aktionen

Dibyadip Chatterjee; Fadime Sener; Shugao Ma; Angela Yao

Zusammenfassung

Menschliche Handlungen in egozentrischen Videos sind häufig Hand-Objekt-Interaktionen, die aus einem Verb (durch die Hand ausgeführt) und einem Objekt bestehen. Trotz ihrer umfangreichen Erweiterung stellen egozentrische Datensätze noch zwei Einschränkungen dar: die Sparsamkeit von Aktionenkompositionen und eine abgeschlossene Menge interagierender Objekte. Dieses Papier schlägt eine neue Aufgabe zur offenen Vokabularerkennung von Aktionen vor. Gegeben ist eine Menge von Verben und Objekten, die während des Trainings beobachtet wurden; das Ziel besteht darin, die Verben auf ein offenes Vokabular von Aktionen mit bekannten und neuen Objekten zu verallgemeinern. Zu diesem Zweck entkoppeln wir die Vorhersage von Verben und Objekten durch einen objektunabhängigen Verbencoder und einen promptbasierten Objektencoder. Die Prompting-Methode nutzt CLIP-Darstellungen, um ein offenes Vokabular interagierender Objekte vorherzusagen. Wir erstellen Benchmarks für offene Vokabulare auf den Datensätzen EPIC-KITCHENS-100 und Assembly101; während geschlossene Aktionserkennungsverfahren nicht verallgemeinern können, erweist sich unser vorgeschlagenes Verfahren als effektiv. Darüber hinaus übertrifft unser Objektencoder bei der Erkennung neuer interagierender Objekte erheblich existierende Methoden der offenen-Vokabular-Bilderkennung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Die Vokabularisierung egozentrischer Aktionen | Paper | HyperAI