HyperAIHyperAI
vor 2 Monaten

Zwei-Ströme-Regionale Faltungsnetzwerk 3D für die zeitliche Aktivitätsdetektion

Huijuan Xu; Abir Das; Kate Saenko
Zwei-Ströme-Regionale Faltungsnetzwerk 3D für die zeitliche Aktivitätsdetektion
Abstract

Wir behandeln das Problem der zeitlichen Aktivitätsdetektion in kontinuierlichen, ungeschnittenen Videostreams. Dies ist eine schwierige Aufgabe, die das Extrahieren von sinnvollen räumlich-zeitlichen Merkmalen erfordert, um Aktivitäten zu erfassen und deren Anfangs- und Endzeiten genauer zu lokalisieren. Wir stellen ein neues Modell vor, das Region Convolutional 3D Network (R-C3D) genannt wird. Dieses kodiert die Videostreams mit einem dreidimensionalen vollständig konvolutionellen Netzwerk, generiert dann Kandidaten für zeitliche Regionen, die Aktivitäten enthalten, und klassifiziert schließlich ausgewählte Regionen in spezifische Aktivitäten. Die Berechnungskosten werden durch das Teilen von konvolutionellen Merkmalen zwischen dem Vorschlags- und dem Klassifikationspipeline reduziert. Wir verbessern zudem die Detektionsleistung durch effizientes Integrieren eines optischen Fluss-basierten Bewegungsstroms mit dem ursprünglichen RGB-Strom. Das Zweistrom-Netzwerk wird durch Fusion der Fluss- und RGB-Merkmalskarten auf verschiedenen Ebenen gemeinsam optimiert. Darüber hinaus wird im Trainingsprozess eine Online-Hard-Example-Mining-Strategie eingesetzt, um das extrem hohe Ungleichgewicht zwischen Vordergrund und Hintergrund zu bewältigen, das in jedem Detektionspipeline typischerweise beobachtet wird. Anstatt heuristisch Kandidatensegmente für die finale Aktivitätsklassifikation zu sampeln, ordnen wir sie nach ihrer Leistung ein und wählen nur die schlechtesten Performer aus, um das Modell zu aktualisieren. Dies verbessert das Modell ohne intensive Hyperparameter-Tuning. Umgefangreiche Experimente auf drei Benchmark-Datensätzen wurden durchgeführt, um die Überlegenheit unserer Methode gegenüber bestehenden temporalen Aktivitätsdetektionsmethoden zu zeigen. Unser Modell erreicht Stand-of-the-Art-Ergebnisse auf den Datensätzen THUMOS'14 und Charades. Zudem demonstrieren wir, dass unser Modell ein allgemeines Framework für temporale Aktivitätsdetektion ist, das nicht von Annahmen über bestimmte Eigenschaften des Datensatzes abhängt, indem wir unseren Ansatz auf dem ActivityNet-Datensatz evaluieren.