Unüberwachtes Lernen von Bewegungsdarstellungen mit Capsule-Autoencodern

Wir schlagen den Motion Capsule Autoencoder (MCAE) vor, der eine wesentliche Herausforderung beim unüberwachten Lernen von Bewegungsrepräsentationen angeht: die Transformationsinvarianz. Der MCAE modelliert Bewegung in einer zweistufigen Hierarchie. Auf der unteren Stufe wird ein räumlich-zeitliches Bewegungssignal in kurze, lokale und semantisch neutrale Segmente aufgeteilt. Auf der höheren Stufe werden diese Segmente aggregiert, um vollständige, semantisch bewusste Abschnitte zu bilden. Für beide Stufen stellen wir Bewegung mit einer Reihe gelernter transformationsinvarianter Vorlagen und die entsprechenden geometrischen Transformationen durch den Einsatz von neu konzipierten Kapsel-Autoencodern dar. Dies führt zu einer robusten und effizienten Kodierung von Sichtwechseln. Der MCAE wurde anhand eines neuen Trajectory20-Bewegungsdatensatzes sowie verschiedener realweltlicher, skelettbasierter Datensätze für menschliche Aktionserkennung evaluiert. Auffällig ist, dass er bei Trajectory20 bessere Ergebnisse als die Baseline-Modelle erzielt, wobei er deutlich weniger Parameter verwendet, und zudem den aktuellen Stand der Technik im Bereich des unüberwachten skelettbasierten Aktionserkennungs-Tasks erreicht.