Skeleton-DML: Tiefes Metriklernen für die skeletonbasierte One-Shot Aktionserkennung

Die One-Shot-Aktionserkennung ermöglicht die Erkennung von menschlich ausgeführten Aktionen mit nur einem einzigen Trainingsbeispiel. Dies kann die Mensch-Roboter-Interaktion positiv beeinflussen, indem es dem Roboter ermöglicht, auf bisher unbekanntes Verhalten zu reagieren. Wir formulieren das Problem der One-Shot-Aktionserkennung als ein Problem des tiefen Metrik-Learnings und schlagen eine neuartige bildbasierte Skelettdarstellung vor, die sich gut in einem Metrik-Learning-Szenario bewährt. Dazu trainieren wir ein Modell, das die Bildrepräsentationen in einen Einbettungsraum projiziert. Im Einbettungsraum haben ähnliche Aktionen einen geringen euklidischen Abstand, während unähnliche Aktionen einen größeren Abstand aufweisen. Das Problem der One-Shot-Aktionserkennung wird somit zu einer nächsten-Nachbarn-Suche in einer Menge von Aktivitätsreferenzbeispielen. Wir evaluieren die Leistung unserer vorgeschlagenen Darstellung gegenüber einer Vielzahl anderer skelettbasierter Bildrepräsentationen. Zudem präsentieren wir eine Ausblendungsstudie (ablation study), die den Einfluss verschiedener Einbettungsvektorgrößen, Verlustfunktionen und Data-Augmentations zeigt. Unser Ansatz verbessert den Stand der Technik um 3,3 % im One-Shot-Aktionserkennungsprotokoll auf dem NTU RGB+D 120 Datensatz bei vergleichbarer Trainingsaufbau. Mit zusätzlicher Data-Augmentation konnten wir unser Ergebnis um über 7,7 % verbessern.