HyperAIHyperAI

Command Palette

Search for a command to run...

Zwei-Ströme-Regionale Faltungsnetzwerk 3D für die zeitliche Aktivitätsdetektion

Huijuan Xu* Abir Das Kate Saenko

Zusammenfassung

Wir behandeln das Problem der zeitlichen Aktivitätsdetektion in kontinuierlichen, ungeschnittenen Videostreams. Dies ist eine schwierige Aufgabe, die das Extrahieren von sinnvollen räumlich-zeitlichen Merkmalen erfordert, um Aktivitäten zu erfassen und deren Anfangs- und Endzeiten genauer zu lokalisieren. Wir stellen ein neues Modell vor, das Region Convolutional 3D Network (R-C3D) genannt wird. Dieses kodiert die Videostreams mit einem dreidimensionalen vollständig konvolutionellen Netzwerk, generiert dann Kandidaten für zeitliche Regionen, die Aktivitäten enthalten, und klassifiziert schließlich ausgewählte Regionen in spezifische Aktivitäten. Die Berechnungskosten werden durch das Teilen von konvolutionellen Merkmalen zwischen dem Vorschlags- und dem Klassifikationspipeline reduziert. Wir verbessern zudem die Detektionsleistung durch effizientes Integrieren eines optischen Fluss-basierten Bewegungsstroms mit dem ursprünglichen RGB-Strom. Das Zweistrom-Netzwerk wird durch Fusion der Fluss- und RGB-Merkmalskarten auf verschiedenen Ebenen gemeinsam optimiert. Darüber hinaus wird im Trainingsprozess eine Online-Hard-Example-Mining-Strategie eingesetzt, um das extrem hohe Ungleichgewicht zwischen Vordergrund und Hintergrund zu bewältigen, das in jedem Detektionspipeline typischerweise beobachtet wird. Anstatt heuristisch Kandidatensegmente für die finale Aktivitätsklassifikation zu sampeln, ordnen wir sie nach ihrer Leistung ein und wählen nur die schlechtesten Performer aus, um das Modell zu aktualisieren. Dies verbessert das Modell ohne intensive Hyperparameter-Tuning. Umgefangreiche Experimente auf drei Benchmark-Datensätzen wurden durchgeführt, um die Überlegenheit unserer Methode gegenüber bestehenden temporalen Aktivitätsdetektionsmethoden zu zeigen. Unser Modell erreicht Stand-of-the-Art-Ergebnisse auf den Datensätzen THUMOS'14 und Charades. Zudem demonstrieren wir, dass unser Modell ein allgemeines Framework für temporale Aktivitätsdetektion ist, das nicht von Annahmen über bestimmte Eigenschaften des Datensatzes abhängt, indem wir unseren Ansatz auf dem ActivityNet-Datensatz evaluieren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Zwei-Ströme-Regionale Faltungsnetzwerk 3D für die zeitliche Aktivitätsdetektion | Paper | HyperAI