Entkopplung und Rekoppelung der räumlich-zeitlichen Darstellung für die RGB-D-basierte Bewegungserkennung

Die Entkopplung von raumzeitlicher Darstellung bezieht sich auf die Zerlegung räumlicher und zeitlicher Merkmale in dimensionsunabhängige Faktoren. Obwohl bisherige RGB-D-basierte Methoden zur Bewegungserkennung durch eine eng gekoppelte multimodale raumzeitliche Darstellung beachtliche Leistung erzielt haben, leiden sie dennoch an folgenden Nachteilen: (i) Schwierigkeiten bei der Optimierung unter Bedingungen mit geringen Datenmengen aufgrund der stark raumzeitlich verflochtenen Modellierung; (ii) Informationsredundanz, da sie oft eine große Menge an marginaler Information enthalten, die nur schwach mit der Klassifikation korreliert; sowie (iii) geringe Interaktion zwischen multimodalen raumzeitlichen Informationen, verursacht durch unzureichende späte Fusion. Um diese Nachteile zu mildern, schlagen wir vor, die raumzeitliche Darstellung zu entkoppeln und anschließend erneut zu koppeln, um die Bewegungserkennung auf Basis von RGB-D-Daten zu verbessern. Konkret zerlegen wir die Aufgabe des Lernens raumzeitlicher Darstellungen in drei Teilaufgaben: (1) Lernen von hochwertigen, dimensionsunabhängigen Merkmalen mittels eines Netzwerks mit entkoppelter räumlicher und zeitlicher Modellierung. (2) Wiederverkoppelung der entkoppelten Darstellung, um eine stärkere raumzeitliche Abhängigkeit herzustellen. (3) Einführung eines Cross-modal Adaptive Posterior Fusion (CAPF)-Mechanismus zur Erfassung von multimodalen raumzeitlichen Informationen aus RGB-D-Daten. Die nahtlose Kombination dieser neuartigen Ansätze führt zu einer robusten raumzeitlichen Darstellung und erreicht eine bessere Leistung als aktuell beste Verfahren auf vier öffentlichen Bewegungsdatensätzen. Unser Quellcode ist unter https://github.com/damo-cv/MotionRGBD verfügbar.