AU R-CNN: Kodierung von Expertenvorwissen in R-CNN für die Erkennung von AktionsEinheiten

Die Erkennung von AktionsEinheiten (AUs) im menschlichen Gesicht ist herausfordernd, da verschiedene AUs subtile Veränderungen des Gesichtsaussehens in verschiedenen Regionen und auf unterschiedlichen Skalen bewirken. Aktuelle Arbeiten haben versucht, AUs durch den Fokus auf wichtige Regionen zu erkennen. Dennoch bleibt die Integration von Expertenwissen in die Definition dieser Regionen unterrepräsentiert, und aktuelle Ansätze zur AU-Erkennung nutzen regionale konvolutionelle Neuronale Netze (R-CNN) mit Expertenwissen nicht, um sich direkt und anpassungsfähig auf AU-relevante Bereiche zu konzentrieren. Durch die Einbeziehung von Expertenwissen schlagen wir ein neues R-CNN-basiertes Modell vor, das AU R-CNN genannt wird. Das vorgeschlagene Verfahren bietet zwei wesentliche Beiträge: (1) AU R-CNN beobachtet direkt verschiedene Gesichtsbereiche, in denen sich verschiedene AUs befinden. Insbesondere definieren wir eine AU-Partitionierungsvorschrift, die das Expertenwissen in die Definition der Regionen und der RoI-Level-Beschriftungen einfließen lässt. Diese Konzeption erzielt deutlich bessere Erkennungsleistungen als bestehende Ansätze. (2) Wir integrieren verschiedene dynamische Modelle (einschließlich konvolutiver Long Short-Term Memory [LSTM], Two-Stream-Netzwerk, bedingtem Zufallsfeld [Conditional Random Field] und temporalem Aktionsskalierungsnetzwerk [Temporal Action Localization Network]) in das AU R-CNN und untersuchen sowie analysieren die Gründe für die Leistungsdynamik dieser Modelle. Die Experimentsergebnisse zeigen, dass \textit{nur} statische RGB-Bildinformationen ohne optisches Flussbasierte AU R-CNN das Modell übertrifft, das mit dynamischen Modellen fusioniert wurde. Darüber hinaus ist das AU R-CNN auch überlegen gegenüber traditionellen CNNs, die den gleichen Backbone bei variierenden Bildauflösungen verwenden. Es wird eine Spitzenleistung in der Erkennung von AUs erreicht. Das gesamte Netzwerk ist end-to-end trainierbar. Experimente anhand der Datensätze BP4D und DISFA belegen die Effektivität unseres Ansatzes. Der Implementierungscode ist online verfügbar.