HyperAIHyperAI
vor 18 Tagen

Dynamische Bildnetzwerke für die Aktionserkennung

{Stephen Gould, Hakan Bilen, Efstratios Gavves, Andrea Vedaldi, Basura Fernando}
Dynamische Bildnetzwerke für die Aktionserkennung
Abstract

Wir führen das Konzept des dynamischen Bildes ein, einer neuartigen kompakten Darstellung von Videos, die insbesondere bei der Videoanalyse nützlich ist, wenn convolutionale neuronale Netze (CNNs) eingesetzt werden. Das dynamische Bild basiert auf dem Konzept des Rank-Pooling und wird durch die Parameter einer Ranking-Maschine erzeugt, die die zeitliche Entwicklung der Videoframes kodiert. Dynamische Bilder werden durch direkte Anwendung des Rank-Pooling auf die rohen Bildpixel eines Videos erzeugt, wodurch pro Video ein einziges RGB-Bild entsteht. Dieser Ansatz ist einfach, aber leistungsfähig, da er die direkte Anwendung bestehender CNN-Modelle auf Video-Daten ermöglicht, wobei lediglich ein Feinabstimmen (Fine-tuning) erforderlich ist. Wir stellen einen effizienten und wirksamen approximativen Rank-Pooling-Operator vor, der die Berechnung um mehrere Größenordnungen beschleunigt im Vergleich zum klassischen Rank-Pooling. Unser neuartiger approximativer Rank-Pooling-CNN-Layer ermöglicht es uns, dynamische Bilder auf dynamische Merkmalskarten zu verallgemeinern. Wir demonstrieren die Stärke unserer neuen Darstellungen anhand etablierter Benchmarks im Bereich der Aktionserkennung und erreichen dabei state-of-the-art-Leistungen.