HyperAIHyperAI
vor 2 Monaten

AUFormer: Visionstransformer sind parameter-effiziente Erkennungssysteme für Gesichtsausdrucksmerkmale

Yuan, Kaishen ; Yu, Zitong ; Liu, Xin ; Xie, Weicheng ; Yue, Huanjing ; Yang, Jingyu
AUFormer: Visionstransformer sind parameter-effiziente Erkennungssysteme für Gesichtsausdrucksmerkmale
Abstract

Facial Action Units (AU) sind ein wesentlicher Begriff im Bereich der affektiven Computing, und die Erkennung von AUs ist seit jeher ein heißes Forschungsthema. Bestehende Methoden leiden an Überanpassungsproblemen aufgrund der Verwendung einer großen Anzahl von lernfähigen Parametern in spärlich annotierten AU-Datensätzen oder der starken Abhängigkeit von erheblichen zusätzlichen relevanten Daten. Parameter-effizientes Transferlearning (PETL) bietet ein vielversprechendes Paradigma, um diese Herausforderungen zu bewältigen; seine bestehenden Methoden fehlen jedoch spezifische Designs für AU-Charakteristika. Daher untersuchen wir innovativ das PETL-Paradigma für die AU-Erkennung und führen AUFormer sowie einen neuen Mechanismus zur Kollaboration von Wissensmischungsexperten (Mixture-of-Knowledge Expert, MoKE) ein. Ein individueller MoKE, der sich auf eine bestimmte AU mit minimalen lernfähigen Parametern konzentriert, integriert zunächst personalisiertes multiskalares und korrelationsbezogenes Wissen. Danach kooperiert der MoKE mit anderen MoKEs in der Expertengruppe, um aggregierte Informationen zu erhalten und diese in den gefrorenen Vision Transformer (ViT) einzuführen, um eine parameter-effiziente AU-Erkennung zu erreichen. Zudem entwickeln wir einen Margin-truncated Difficulty-aware Weighted Asymmetric Loss (MDWA-Loss), der das Modell dazu anregt, sich stärker auf aktivierte AUs zu konzentrieren, die Schwierigkeit nicht aktivierter AUs zu differenzieren und potentiell falsch beschriftete Stichproben abzulehnen. Umfangreiche Experimente aus verschiedenen Perspektiven, einschließlich innerhalb des gleichen Domains, zwischen verschiedenen Domains, bezüglich der Dateneffizienz und im Mikroausdrucksbereich, zeigen die Spitzenleistung und die robuste Generalisierungsfähigkeit von AUFormer ohne die Notwendigkeit zusätzlicher relevanter Daten. Der Code für AUFormer ist unter https://github.com/yuankaishen2001/AUFormer verfügbar.

AUFormer: Visionstransformer sind parameter-effiziente Erkennungssysteme für Gesichtsausdrucksmerkmale | Neueste Forschungsarbeiten | HyperAI