HyperAIHyperAI
vor 2 Monaten

Die Nutzung zeitlicher Kontextualisierung für die Aktionserkennung in Videos

Minji Kim; Dongyoon Han; Taekyung Kim; Bohyung Han
Die Nutzung zeitlicher Kontextualisierung für die Aktionserkennung in Videos
Abstract

Wir schlagen einen neuen Ansatz für die Videoanalyse vor, den temporale Kontextualisierung von CLIP (TC-CLIP) genannten Rahmen. Dieser nutzt wesentliche zeitliche Informationen durch globale Interaktionen im räumlich-zeitlichen Bereich innerhalb eines Videos. Genauer gesagt führen wir die temporale Kontextualisierung (TC) ein, ein schichtbasiertes Verfahren zur zeitlichen Informationsverschmelzung in Videos, das 1) Kerninformationen aus jedem Bildausschnitt extrahiert, 2) relevante Informationen über mehrere Bildausschnitte hinweg verbindet, um sie in Kontexttokens zusammenzufassen, und 3) diese Kontexttokens für die Merkmalskodierung nutzt. Darüber hinaus verarbeitet das Modul zur video-bedingten Anregung (VP) die Kontexttokens, um informativen Textanreize zu generieren. Ausführliche Experimente zur Null-Shot-, Few-Shot-, Base-to-Novel- und vollständig überwachten Aktionserkennung bestätigen die Effektivität unseres Modells. Die Abstraktionsstudien zu TC und VP untermauern unsere Gestaltungsoptionen. Unsere Projektseite mit dem Quellcode ist unter https://github.com/naver-ai/tc-clip verfügbar.

Die Nutzung zeitlicher Kontextualisierung für die Aktionserkennung in Videos | Neueste Forschungsarbeiten | HyperAI