Lernen von Selbstähnlichkeit in Raum und Zeit als verallgemeinerter Bewegung für die Video-Aktionserkennung

Spatio-temporale Faltungen scheitern oft daran, Bewegungsdynamiken in Videos zu erlernen, weshalb für die Videoverstehens in der Wildnis eine effektive Bewegungsrepräsentation erforderlich ist. In diesem Artikel stellen wir eine reichhaltige und robuste Bewegungsrepräsentation vor, die auf der spatio-temporalen Selbstähnlichkeit (STSS) basiert. Gegeben eine Folge von Bildern stellt STSS jede lokale Region als Ähnlichkeiten zu ihren Nachbarn im Raum und in der Zeit dar. Durch die Umwandlung von Erscheinungsmerkmalen in relationale Werte ermöglicht sie dem Lernsystem, strukturelle Muster im Raum und in der Zeit besser zu erkennen. Wir nutzen das gesamte STSS-Volumen aus und lassen unser Modell lernen, eine effektive Bewegungsrepräsentation daraus zu extrahieren. Der vorgeschlagene neuronale Baustein, SELFY genannt, kann problemlos in neuronale Architekturen integriert und end-to-end ohne zusätzliche Aufsicht trainiert werden. Bei ausreichend großem Nachbarschaftsvolumen im Raum und in der Zeit erfasst er effektiv langfristige Wechselwirkungen und schnelle Bewegungen in Videos, was zu robuster Aktionserkennung führt. Unsere experimentellen Analysen belegen seine Überlegenheit gegenüber früheren Methoden zur Bewegungsmodellierung sowie ihre Komplementarität zu spatio-temporalen Merkmalen aus direkter Faltung. Auf den Standardbenchmarks für Aktionserkennung – Something-Something-V1 & V2, Diving-48 und FineGym – erreicht die vorgeschlagene Methode die derzeit beste Leistung.