SL-DML: Signal-Level Deep Metric Learning für die multimodale One-Shot Aktionserkennung

Die Erkennung einer Aktivität mit einem einzigen Referenzsample mithilfe von Metrik-Lernansätzen ist ein vielversprechendes Forschungsfeld. Die Mehrheit der Few-Shot-Methoden konzentriert sich auf Objekterkennung oder Gesichtserkennung. Wir schlagen einen Metrik-Lernansatz vor, um das Problem der Aktionserkennung auf eine nächstgelegene Nachbarschaftssuche im Einbettungsraum zu reduzieren. Wir kodieren Signale in Bilder und extrahieren Merkmale mittels eines tiefen Residual-CNNs (Convolutional Neural Network). Durch den Einsatz des Triplettenverlusts lernen wir eine Merkmals-Einbettung. Der resultierende Encoder transformiert die Merkmale in einen Einbettungsraum, in dem kleinere Distanzen ähnliche Aktionen und größere Distanzen unterschiedliche Aktionen kodieren. Unser Ansatz basiert auf einer Signal-Level-Formulierung und bleibt flexibel für verschiedene Modalitäten. Darüber hinaus übertreffen wir die Baseline auf dem großen NTU RGB+D 120-Datensatz für das One-Shot-Aktionserkennungsprotokoll um 5,6 %. Mit nur 60 % der Trainingsdaten übertreffen wir den Baseline-Ansatz noch um 3,7 %. Mit 40 % der Trainingsdaten erzielt unser Ansatz vergleichbare Ergebnisse wie die zweite Fortsetzung. Zudem zeigen unsere Experimente auf dem UTD-MHAD-Datensatz für Trägheits-, Skelett- und fusionierte Daten sowie auf dem Simitate-Datensatz für Bewegungsaufzeichnungsdaten, dass unser Ansatz gut verallgemeinert. Unsere Experimente zur Inter-Joint- und Inter-Sensor-Bewegung deuten darauf hin, dass er auch bei bisher nicht gesehenen Setup-Konfigurationen gute Fähigkeiten zeigt.