Gruppendichte und geometrisch eingeschränkte Dictionary-Lernverfahren zur Aktionserkennung aus Tiefenkarten.

Die menschliche Aktenerkennung basierend auf der Tiefeninformation, die von kommerziellen Tiefensensoren bereitgestellt wird, ist eine wichtige, jedoch herausfordernde Aufgabe. Rauschhafte Tiefenkarten, unterschiedliche Längen von Aktionssequenzen sowie freie Ausführungsstile können erhebliche intra-klassische Variationen verursachen. In diesem Artikel wird ein neues Framework vorgestellt, das auf sparscher Kodierung und temporärer Pyramidenübereinstimmung (Temporal Pyramid Matching, TPM) basiert, für die Tiefenbasierte menschliche Aktenerkennung. Insbesondere wird ein diskriminativer, klassenspezifischer Dictionary-Lernalgorithmus für die sparsche Kodierung vorgeschlagen. Durch die Einbeziehung von Gruppen-Sparsamkeit und geometrischen Einschränkungen können Merkmale effizient durch das den gleichen Klassen zugehörige Unterdictionary rekonstruiert werden, wobei gleichzeitig die geometrischen Beziehungen zwischen den Merkmalen in den berechneten Koeffizienten erhalten bleiben. Das vorgeschlagene Verfahren wird an zwei Benchmark-Datensätzen evaluiert, die mit Tiefenkameras aufgenommen wurden. Experimentelle Ergebnisse zeigen, dass der vorgeschlagene Algorithmus wiederholt eine überlegene Leistung im Vergleich zu den aktuellen Stand der Technik erzielt. Zudem übertrifft der vorgeschlagene Dictionary-Lernansatz klassische Dictionary-Lernverfahren.