Modellierung der multi-skalierten Dynamik und hierarchischen Beziehungen für die Erkennung von Gesichtsausdrucks-Einheiten

Menschliche Gesichtsausdrucks-Einheiten (AUs) sind in einer hierarchischen Weise miteinander verbunden, da sie sich sowohl im räumlichen als auch im zeitlichen Bereich gegenseitig beeinflussen und AUs, die sich in denselben oder benachbarten Gesichtsregionen befinden, stärkere Beziehungen aufweisen als solche aus verschiedenen Gesichtsregionen. Obwohl bisherige Ansätze diese hierarchischen Abhängigkeiten zwischen AUs nicht vollständig modellieren, schlägt dieser Artikel ein umfassendes Modell vor, das multiskalige AU-bedingte dynamische und hierarchische räumlich-zeitliche Beziehungen für die Erkennung von AU-Auftritten modelliert. Insbesondere wird zunächst ein neues multiskaliges temporales Differenzierungsnetzwerk mit einem adaptiven Gewichtungsblock vorgestellt, um die Gesichtsdynamik über verschiedene Bildfolgen und räumliche Skalen explizit zu erfassen. Dabei wird insbesondere die Heterogenität des Umfangs und der Intensität bei der Aktivierung verschiedener AUs berücksichtigt. Anschließend wird eine zweistufige Strategie eingeführt, um die Beziehungen zwischen AUs basierend auf ihrer räumlichen Verteilung (d.h., lokale und regionale AU-Beziehungen) hierarchisch zu modellieren. Die experimentellen Ergebnisse, die auf BP4D und DISFA erzielt wurden, zeigen, dass unser Ansatz der neue Stand der Technik im Bereich der AU-Auftrittserkennung darstellt. Unser Code ist öffentlich verfügbar unter https://github.com/CVI-SZU/MDHR.