HyperAIHyperAI
vor 2 Monaten

BABEL: Körper, Aktion und Verhalten mit englischen Bezeichnungen

Punnakkal, Abhinanda R. ; Chandrasekaran, Arjun ; Athanasiou, Nikos ; Quiros-Ramirez, Alejandra ; Black, Michael J.
BABEL: Körper, Aktion und Verhalten mit englischen Bezeichnungen
Abstract

Das Verständnis der Semantik menschlicher Bewegungen – das Was, Wie und Warum der Bewegung – ist ein wichtiges Problem, das Datensätze von menschlichen Aktionen mit semantischen Etiketten erfordert. Bestehende Datensätze folgen einem von zwei Ansätzen. Große Video-Datensätze enthalten viele Aktionsetiketten, aber keine wahren 3D-Bewegungsdaten des Menschen. Alternativ haben Bewegungserfassungsdatensätze (Motion-Capture-Datensätze) präzise Körperbewegungen, sind aber auf eine kleine Anzahl von Aktionen beschränkt. Um dies zu beheben, stellen wir BABEL vor, einen großen Datensatz mit Sprachetiketten, die die in Motion-Capture-Sequenzen ausgeführten Aktionen beschreiben. BABEL umfasst Aktionsetiketten für etwa 43 Stunden Motion-Capture-Sequenzen aus AMASS. Die Aktionsetiketten existieren auf zwei Abstraktionsniveaus: Sequenzetiketten beschreiben die gesamte Aktion in der Sequenz, während Rahmenerfassungsetiketten alle Aktionen in jedem Frame der Sequenz beschreiben. Jedes Rahmenerfassungsetikett ist genau mit der Dauer der entsprechenden Aktion in der Motion-Capture-Sequenz ausgerichtet, und mehrere Aktionen können sich überlappen. In BABEL gibt es über 28.000 Sequenzetiketten und 63.000 Rahmenerfassungsetiketten, die zu über 250 einzigartigen Aktionskategorien gehören. Die Etiketten aus BABEL können für Aufgaben wie die Erkennung von Aktionen, die zeitliche Lokalisierung von Aktionen und die Synthese von Bewegungen genutzt werden. Um den Wert von BABEL als Benchmark zu demonstrieren, evaluieren wir die Leistungsfähigkeit von Modellen bei der 3D-Aktionserkennung. Wir zeigen, dass BABEL interessante Lernherausforderungen bietet, die auf reale Szenarien anwendbar sind und als nützliches Benchmark-Instrument für Fortschritte in der 3D-Aktionserkennung dienen kann. Der Datensatz, das Baseline-Verfahren und der Evaluationscode sind unter https://babel.is.tue.mpg.de/ für akademische Forschungszwecke verfügbar und unterstützt.