VPN: Lernen von Video-Pose-Embeddings für Aktivitäten des täglichen Lebens

In diesem Paper konzentrieren wir uns auf den räumlich-zeitlichen Aspekt der Erkennung von Aktivitäten des täglichen Lebens (Activities of Daily Living, ADL). ADL weisen zwei spezifische Eigenschaften auf: (i) subtile räumlich-zeitliche Muster und (ii) ähnliche visuelle Muster, die sich im Laufe der Zeit verändern. Daher können ADL sehr ähnlich erscheinen und erfordern oft eine detaillierte Analyse feinster Merkmale zur Unterscheidung. Da aktuelle räumlich-zeitliche 3D-ConvNets zu starr sind, um die subtilen visuellen Muster innerhalb einer Aktion zu erfassen, schlagen wir ein neuartiges Video-Pose-Netzwerk (VPN) vor. Die zwei zentralen Komponenten dieses VPN sind eine räumliche Einbettung und ein Aufmerksamkeitsnetzwerk. Die räumliche Einbettung projiziert 3D-Gesten und RGB-Informationen in einen gemeinsamen semantischen Raum. Dadurch kann der Erkennungsrahmen besser abgestimmte räumlich-zeitliche Merkmale lernen, indem beide Modalitäten genutzt werden. Um ähnliche Aktionen zu unterscheiden, bietet das Aufmerksamkeitsnetzwerk zwei Funktionen: (i) einen end-to-end lernbaren Gesten-Backbone, der die Topologie des menschlichen Körpers ausnutzt, und (ii) einen Koppler, der gemeinsame räumlich-zeitliche Aufmerksamkeitsgewichte über den gesamten Video-Verlauf bereitstellt. Experimente zeigen, dass das VPN die bisher besten Ergebnisse für die Aktionsklassifikation auf einem großen menschlichen Aktivitätsdatensatz (NTU-RGB+D 120), dessen Teilmenge NTU-RGB+D 60, einem realen, anspruchsvollen menschlichen Aktivitätsdatensatz (Toyota Smarthome) sowie einem kleineren Datensatz für menschliche Objektinteraktionen (Northwestern UCLA) erreicht.