HyperAIHyperAI
vor 17 Tagen

Eindringlich in die One-Shot-Gestenbasierte Aktionserkennung mit vielfältigen Verdeckungen eingehen

Kunyu Peng, Alina Roitberg, Kailun Yang, Jiaming Zhang, Rainer Stiefelhagen
Eindringlich in die One-Shot-Gestenbasierte Aktionserkennung mit vielfältigen Verdeckungen eingehen
Abstract

Occlusions sind universelle Störungen, die ständig in der realen Welt auftreten. Insbesondere bei spärlichen Darstellungen wie menschlichen Skeletten können wenige occluded Punkte die geometrische und zeitliche Kontinuität erheblich beeinträchtigen und somit die Ergebnisse gravierend verschlechtern. Dennoch berücksichtigt die Forschung zur datenarmen Erkennung aus Skelettsequenzen, wie beispielsweise One-shot Action Recognition, trotz ihrer alltäglichen Präsenz keine Occlusions explizit. In dieser Arbeit behandeln wir Körperocclusions explizit für das Skeleton-based One-shot Action Recognition (SOAR). Wir betrachten hauptsächlich zwei Varianten von Occlusions: 1) zufällige Occlusions und 2) realistischere Occlusions, die durch vielfältige Alltagsgegenstände verursacht werden, die wir erzeugen, indem wir bestehende 3D-Möbelmodelle aus der IKEA-Datenbank in das Kamerakoordinatensystem der 3D-Skelette mit unterschiedlichen geometrischen Parametern projizieren. Wir nutzen den vorgeschlagenen Pipeline-Ansatz, um Teile von Skelettsequenzen dreier bekannter Action Recognition-Datensätze zu maskieren, und formalisieren damit die erste Benchmark für SOAR aus teilweise occludierten Körperpose-Daten. Ein weiterer zentraler Aspekt unserer Benchmark sind die realistischeren Occlusions, die durch Alltagsgegenstände generiert werden – bereits bei der Standard-Erkennung aus 3D-Skeletten wurden bisher lediglich zufällig fehlende Gelenke berücksichtigt. Wir re-evaluieren bestehende State-of-the-Art-Modelle für SOAR im Kontext dieser neuen Aufgabe und stellen zudem Trans4SOAR vor – ein neuartiges Transformer-basiertes Modell, das drei Datenströme nutzt und einen Mixed-Attention-Fusionsmechanismus einsetzt, um die negativen Auswirkungen von Occlusions zu mildern. Während unsere Experimente eine deutliche Abnahme der Genauigkeit bei fehlenden Skelettanteilen zeigen, ist dieser Effekt bei Trans4SOAR geringer, wobei es auf allen Datensätzen die anderen Architekturen übertrifft. Obwohl wir uns speziell auf Occlusions konzentrieren, erzielt Trans4SOAR zudem State-of-the-Art-Leistungen bei der Standard-SOAR-Aufgabe ohne Occlusions und übertrifft den bisher besten veröffentlichten Ansatz um 2,85 % auf NTU-120.