Aktionserkennung mit trajektorie-basierten tiefen Faltungsdeskriptoren

Visuelle Merkmale sind von entscheidender Bedeutung für das Verständnis menschlicher Aktionen in Videos. In dieser Arbeit wird eine neue Video-Darstellung vorgestellt, die als Trajektorien-aggregierter tiefkonvolutionsbasierter Deskriptor (TDD) bezeichnet wird und sowohl die Vorteile manuell gestalteter Merkmale als auch tiefer gelernter Merkmale vereint. Insbesondere nutzen wir tiefere Architekturen, um diskriminative konvolutionsbasierte Merkmalskarten zu lernen, und führen eine trajektorien-bedingte Pooling-Operation durch, um diese konvolutionsbasierten Merkmale in effektive Deskriptoren zu aggregieren. Um die Robustheit der TDDs zu verbessern, entwerfen wir zwei Normalisierungsmethoden zur Transformation der konvolutionsbasierten Merkmalskarten, nämlich räumlich-zeitliche Normalisierung und Kanalnormalisierung. Die Vorteile unserer Merkmale liegen darin, dass (i) TDDs automatisch gelernt werden und im Vergleich zu manuell gestalteten Merkmalen eine höhere diskriminative Kapazität aufweisen; (ii) TDDs die intrinsischen Eigenschaften der zeitlichen Dimension berücksichtigen und Strategien der trajektorien-bedingten Stichprobenziehung und Pooling einsetzen, um tiefe gelernte Merkmale zu aggregieren. Wir führen Experimente auf zwei anspruchsvollen Datensätzen durch: HMDB51 und UCF101. Die experimentellen Ergebnisse zeigen, dass TDDs sowohl vorherige manuell gestaltete Merkmale als auch tiefe gelernte Merkmale übertrumpfen. Unsere Methode erzielt zudem eine bessere Leistung als der aktuelle Stand der Technik auf diesen Datensätzen (HMDB51 65,9 %, UCF101 91,5 %).