HyperAIHyperAI

Command Palette

Search for a command to run...

Die Nutzung zeitlicher Kontextualisierung für die Aktionserkennung in Videos

Minji Kim extsuperscript1 extsuperscript† Dongyoon Han extsuperscript3 Taekyung Kim extsuperscript3 extsuperscript* Bohyung Han extsuperscript1,2 extsuperscript*

Zusammenfassung

Wir schlagen einen neuen Ansatz für die Videoanalyse vor, den temporale Kontextualisierung von CLIP (TC-CLIP) genannten Rahmen. Dieser nutzt wesentliche zeitliche Informationen durch globale Interaktionen im räumlich-zeitlichen Bereich innerhalb eines Videos. Genauer gesagt führen wir die temporale Kontextualisierung (TC) ein, ein schichtbasiertes Verfahren zur zeitlichen Informationsverschmelzung in Videos, das 1) Kerninformationen aus jedem Bildausschnitt extrahiert, 2) relevante Informationen über mehrere Bildausschnitte hinweg verbindet, um sie in Kontexttokens zusammenzufassen, und 3) diese Kontexttokens für die Merkmalskodierung nutzt. Darüber hinaus verarbeitet das Modul zur video-bedingten Anregung (VP) die Kontexttokens, um informativen Textanreize zu generieren. Ausführliche Experimente zur Null-Shot-, Few-Shot-, Base-to-Novel- und vollständig überwachten Aktionserkennung bestätigen die Effektivität unseres Modells. Die Abstraktionsstudien zu TC und VP untermauern unsere Gestaltungsoptionen. Unsere Projektseite mit dem Quellcode ist unter https://github.com/naver-ai/tc-clip verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp