HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen von Selbstähnlichkeit in Raum und Zeit als verallgemeinerter Bewegung für die Video-Aktionserkennung

Heeseung Kwon Manjin Kim Suha Kwak Minsu Cho

Zusammenfassung

Spatio-temporale Faltungen scheitern oft daran, Bewegungsdynamiken in Videos zu erlernen, weshalb für die Videoverstehens in der Wildnis eine effektive Bewegungsrepräsentation erforderlich ist. In diesem Artikel stellen wir eine reichhaltige und robuste Bewegungsrepräsentation vor, die auf der spatio-temporalen Selbstähnlichkeit (STSS) basiert. Gegeben eine Folge von Bildern stellt STSS jede lokale Region als Ähnlichkeiten zu ihren Nachbarn im Raum und in der Zeit dar. Durch die Umwandlung von Erscheinungsmerkmalen in relationale Werte ermöglicht sie dem Lernsystem, strukturelle Muster im Raum und in der Zeit besser zu erkennen. Wir nutzen das gesamte STSS-Volumen aus und lassen unser Modell lernen, eine effektive Bewegungsrepräsentation daraus zu extrahieren. Der vorgeschlagene neuronale Baustein, SELFY genannt, kann problemlos in neuronale Architekturen integriert und end-to-end ohne zusätzliche Aufsicht trainiert werden. Bei ausreichend großem Nachbarschaftsvolumen im Raum und in der Zeit erfasst er effektiv langfristige Wechselwirkungen und schnelle Bewegungen in Videos, was zu robuster Aktionserkennung führt. Unsere experimentellen Analysen belegen seine Überlegenheit gegenüber früheren Methoden zur Bewegungsmodellierung sowie ihre Komplementarität zu spatio-temporalen Merkmalen aus direkter Faltung. Auf den Standardbenchmarks für Aktionserkennung – Something-Something-V1 & V2, Diving-48 und FineGym – erreicht die vorgeschlagene Methode die derzeit beste Leistung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lernen von Selbstähnlichkeit in Raum und Zeit als verallgemeinerter Bewegung für die Video-Aktionserkennung | Paper | HyperAI