Hören Sie, um zu sehen: Aktionserkennung durch Vorschau von Audio

Angesichts der Flut an Video-Daten sind heutige kostspielige Klassifizierer auf Clip-Ebene zunehmend unpraktisch. Wir stellen einen Rahmen für eine effiziente Aktionserkennung in ungeschnittenen Videos vor, der Audio als Vorschaemechanismus nutzt, um sowohl kurzfristige als auch langfristige visuelle Redundanzen zu eliminieren. Zunächst entwickeln wir einen ImgAud2Vid-Ansatz, der durch Auszugsverfahren aus leichteren Modalitäten – einem einzelnen Frame und seinem zugehörigen Audio – Clip-Ebene-Features rekonstruiert, wodurch die kurzfristige zeitliche Redundanz zur effizienten Klassifizierung auf Clip-Ebene reduziert wird. Zweitens bauen wir auf ImgAud2Vid auf und schlagen ImgAud-Skimming vor, ein auf Aufmerksamkeit basierendes Langzeit-Kurzzeit-Gedächtnis-Netzwerk, das iterativ relevante Momente in ungeschnittenen Videos auswählt und damit die langfristige zeitliche Redundanz zur effizienten Erkennung auf Video-Ebene verringert. Umfassende Experimente an vier Aktionserkennungs-Datensätzen zeigen, dass unsere Methode sowohl in Bezug auf Erkennungsgenauigkeit als auch Geschwindigkeit den Stand der Technik erreicht.