3D Lokale Faltungsneuronale Netze für die Gangerkennung

Das Ziel der Gangerkennung besteht darin, die einzigartigen räumlich-zeitlichen Muster der menschlichen Körpergestalt aus deren zeitlichen Veränderungsmerkmalen zu erlernen. Da verschiedene Körperteile beim Gehen unterschiedlich agieren, ist es naheliegend, die räumlich-zeitlichen Muster jedes Teils separat zu modellieren. Bisherige teilspezifische Ansätze teilen jedoch die Merkmalskarten jedes Frames gleichmäßig in feste horizontale Streifen auf, um lokale Körperteile zu extrahieren. Es ist offensichtlich, dass diese auf Streifenpartitionierung basierende Methode die Körperteile nicht präzise lokalisieren kann. Erstens können verschiedene Körperteile in derselben Streife erscheinen (z. B. Arme und Rumpf), und ein einzelner Körperteil kann in verschiedenen Frames in unterschiedlichen Streifen auftreten (z. B. Hände). Zweitens besitzen verschiedene Körperteile unterschiedliche Skalen, und selbst derselbe Körperteil kann in verschiedenen Frames an unterschiedlichen Positionen und in unterschiedlichen Skalen erscheinen. Drittens zeigen verschiedene Körperteile auch unterschiedliche Bewegungsmuster (z. B. in welchem Frame die Bewegung beginnt, wie häufig sich die Position ändert, wie lange sie andauert). Um diese Herausforderungen zu bewältigen, schlagen wir neuartige 3D lokale Operationen als eine generische Familie von Bausteinen für 3D-Gangerkennungs-Backbones vor. Die vorgeschlagenen 3D lokalen Operationen ermöglichen die Extraktion lokaler 3D-Volumina von Körperteilen in einer Sequenz mit adaptiven räumlichen und zeitlichen Skalen, Positionen und Längen. Auf diese Weise werden die räumlich-zeitlichen Muster der Körperteile effektiv aus der 3D-lokalen Nachbarschaft in körperspezifischen Skalen, Positionen, Frequenzen und Längen erlernt. Experimente zeigen, dass unsere 3D lokalen neuronalen Netze mit Faltung eine state-of-the-art-Leistung auf gängigen Gangdatensätzen erzielen. Der Quellcode ist unter folgender Adresse verfügbar: https://github.com/yellowtownhz/3DLocalCNN.