SkeleTR: Hin zum skelettbasierten Aktionserkennung in der Wildnis

Wir präsentieren SkeleTR, einen neuen Ansatz für die Aktionserkennung basierend auf Skelettdaten. Im Gegensatz zu vorherigen Arbeiten, die sich hauptsächlich auf kontrollierte Umgebungen konzentrieren, richten wir uns auf realweltliche Szenarien, die typischerweise eine variable Anzahl an Personen sowie verschiedene Arten der Interaktion zwischen Personen beinhalten. SkeleTR basiert auf einem zweistufigen Paradigma: Zunächst modelliert es die intra-personlichen Skelett-Dynamiken jeder Skelettsequenz mittels Graph-Convolutionen, und anschließend nutzt es gestapelte Transformer-Encoder, um die zwischenmenschlichen Interaktionen zu erfassen, die für die Aktionserkennung in der Wildnis entscheidend sind. Um den negativen Einfluss ungenauer Skelett-Zuordnungen zu reduzieren, verarbeitet SkeleTR relative kurze Skelettsequenzen und erhöht dabei die Gesamtanzahl der Sequenzen. Als einheitliche Lösung lässt sich SkeleTR direkt auf mehrere auf Skelettdaten basierende Aktionsaufgaben anwenden, darunter Aktionsklassifikation auf Video-Ebene, Aktionsdetektion auf Instanz-Ebene und Aktivitäts-Erkennung auf Gruppenebene. Zudem ermöglicht es Transfer-Lernen und gemeinsames Training über verschiedene Aktionsaufgaben und Datensätze hinweg, was zu einer Leistungssteigerung führt. Bei der Bewertung an mehreren Benchmarks für skelettbasierte Aktionserkennung erreicht SkeleTR den Stand der Technik.