HyperAIHyperAI
vor 17 Tagen

Ein einheitlicher multimodaler Ent- und Re-kopplungsrahmen für RGB-D-Bewegungserkennung

Benjia Zhou, Pichao Wang, Jun Wan, Yanyan Liang, Fan Wang
Ein einheitlicher multimodaler Ent- und Re-kopplungsrahmen für RGB-D-Bewegungserkennung
Abstract

Die Bewegungserkennung ist eine vielversprechende Richtung im Bereich des Computersehens, doch die Schulung von Videoklassifikationsmodellen ist aufgrund unzureichender Daten und erheblicher Parameteranzahlen deutlich schwieriger als bei Bildern. Um diesem Problem zu begegnen, bemühen sich einige Ansätze, multimodale Hinweise aus RGB-D-Daten zu erschließen. Obwohl diese Methoden die Bewegungserkennung in gewissem Maße verbessern, stehen sie dennoch vor suboptimalen Situationen in folgenden Aspekten: (i) Datenaugmentation, d. h. das Umfangsmaß der RGB-D-Datensätze bleibt weiterhin begrenzt, und es wurden bisher nur wenige Anstrengungen unternommen, um neue Augmentierungsstrategien für Videos zu entwickeln; (ii) Optimierungsmechanismus, d. h. die eng verzahnte räumlich-zeitliche Netzwerkarchitektur stellt zusätzliche Herausforderungen für die Modellierung räumlich-zeitlicher Informationen dar; und (iii) Kreuzmodale Wissensfusion, d. h. die hohe Ähnlichkeit zwischen multimodalen Darstellungen führt zu einer unzureichenden späten Fusion. Um diese Nachteile zu mildern, schlagen wir in diesem Artikel eine Verbesserung der auf RGB-D-Daten basierenden Bewegungserkennung sowohl aus daten- als auch aus algorithmischer Perspektive vor. Genauer gesagt: Erstens führen wir eine neuartige Video-Datenaugmentation-Methode namens ShuffleMix ein, die als Ergänzung zu MixUp fungiert und zusätzliche zeitliche Regularisierung für die Bewegungserkennung bereitstellt. Zweitens stellen wir einen einheitlichen Multimodal-Entkoppelungs- und mehrstufigen Rekoppelungs-Framework (UMDR) für die Video-Darstellungslernung vor. Drittens erforschen wir einen neuartigen, kreuzmodalen Komplementär-Feature-Erfasser (CFCer), der potenzielle Gemeinsamkeiten in den multimodalen Informationen als Hilfsfusionssignal erschließt, um die Ergebnisse der späten Fusion zu verbessern. Die nahtlose Kombination dieser innovativen Entwürfe führt zu einer robusten räumlich-zeitlichen Darstellung und erreicht eine bessere Leistung als die derzeit besten Methoden auf vier öffentlichen Bewegungsdatensätzen. Insbesondere erzielt UMDR auf dem Chalearn IsoGD-Datensatz bahnbrechende Verbesserungen um +4,5 %. Unser Quellcode ist unter https://github.com/zhoubenjia/MotionRGBD-PAMI verfügbar.