HyperAIHyperAI
vor 17 Tagen

Von statisch zu dynamisch: Anpassung von landmark-bewussten Bildmodellen für die GesichtsausdrucksErkennung in Videos

Yin Chen, Jia Li, Shiguang Shan, Meng Wang, Richang Hong
Von statisch zu dynamisch: Anpassung von landmark-bewussten Bildmodellen für die GesichtsausdrucksErkennung in Videos
Abstract

Die dynamische Gesichtsausdruckserkennung (DFER) in natürlicher Umgebung („in the wild“) bleibt weiterhin durch Datenbeschränkungen behindert, etwa aufgrund unzureichender Menge und Vielfalt an Pose, Verdeckung und Beleuchtung sowie der inhärenten Mehrdeutigkeit von Gesichtsausdrücken. Im Gegensatz dazu erreicht die statische Gesichtsausdruckserkennung (SFER) derzeit eine deutlich höhere Leistung und kann von einer reichhaltigeren Menge hochwertiger Trainingsdaten profitieren. Zudem sind die Erscheinungsmerkmale und dynamischen Abhängigkeiten in der DFER bisher weitgehend unerforscht. Um diesen Herausforderungen zu begegnen, stellen wir ein neuartiges Static-to-Dynamic-Modell (S2D) vor, das bestehende SFER-Wissen sowie dynamische Informationen, die implizit in extrahierten gesichtslandmarkenbewussten Merkmalen kodiert sind, nutzt, wodurch die DFER-Leistung erheblich verbessert wird. Zunächst bauen und trainieren wir ein Bildmodell für SFER, das ausschließlich einen Standard-Vision-Transformer (ViT) und Multi-View-Complementary-Prompter (MCPs) verwendet. Anschließend gewinnen wir unser Video-Modell (d. h. S2D) für die DFER, indem wir Temporal-Modeling-Adapter (TMAs) in das Bildmodell integrieren. Die MCPs verstärken die Gesichtsausdruckmerkmale durch gesichtslandmarkenbewusste Merkmale, die mittels eines kommerziell verfügbaren Gesichtslandmarkendetektors abgeleitet werden. Die TMAs erfassen und modellieren die Beziehungen dynamischer Veränderungen in Gesichtsausdrücken und erweitern somit effektiv das vortrainierte Bildmodell für Video-Daten. Besonders hervorzuheben ist, dass MCPs und TMAs lediglich einen geringen Anteil an trainierbaren Parametern (weniger als +10 %) zum ursprünglichen Bildmodell hinzufügen. Darüber hinaus präsentieren wir eine neuartige Selbst-Distillation-Verlustfunktion basierend auf Emotion-Anchors (d. h. Referenzproben für jede Emotionskategorie), um die schädliche Wirkung mehrdeutiger Emotionslabels zu verringern und die Leistung unseres S2D weiter zu steigern. Experimente auf gängigen SFER- und DFER-Datensätzen zeigen, dass wir den derzeitigen Stand der Technik erreichen.

Von statisch zu dynamisch: Anpassung von landmark-bewussten Bildmodellen für die GesichtsausdrucksErkennung in Videos | Neueste Forschungsarbeiten | HyperAI