HyperAIHyperAI

Command Palette

Search for a command to run...

Hören Sie, um zu sehen: Aktionserkennung durch Vorschau von Audio

Ruohan Gao Tae-Hyun Oh Kristen Grauman Lorenzo Torresani

Zusammenfassung

Angesichts der Flut an Video-Daten sind heutige kostspielige Klassifizierer auf Clip-Ebene zunehmend unpraktisch. Wir stellen einen Rahmen für eine effiziente Aktionserkennung in ungeschnittenen Videos vor, der Audio als Vorschaemechanismus nutzt, um sowohl kurzfristige als auch langfristige visuelle Redundanzen zu eliminieren. Zunächst entwickeln wir einen ImgAud2Vid-Ansatz, der durch Auszugsverfahren aus leichteren Modalitäten – einem einzelnen Frame und seinem zugehörigen Audio – Clip-Ebene-Features rekonstruiert, wodurch die kurzfristige zeitliche Redundanz zur effizienten Klassifizierung auf Clip-Ebene reduziert wird. Zweitens bauen wir auf ImgAud2Vid auf und schlagen ImgAud-Skimming vor, ein auf Aufmerksamkeit basierendes Langzeit-Kurzzeit-Gedächtnis-Netzwerk, das iterativ relevante Momente in ungeschnittenen Videos auswählt und damit die langfristige zeitliche Redundanz zur effizienten Erkennung auf Video-Ebene verringert. Umfassende Experimente an vier Aktionserkennungs-Datensätzen zeigen, dass unsere Methode sowohl in Bezug auf Erkennungsgenauigkeit als auch Geschwindigkeit den Stand der Technik erreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp