Command Palette
Search for a command to run...
EmoCLIP: Eine Vision-Sprache-Methode für die zero-shot Erkennung von Video-Gesichtsausdrücken
EmoCLIP: Eine Vision-Sprache-Methode für die zero-shot Erkennung von Video-Gesichtsausdrücken
Niki Maria Foteinopoulou Ioannis Patras
Zusammenfassung
Die Erkennung von Gesichtsausdrücken (Facial Expression Recognition, FER) ist eine wichtige Aufgabe im affektiven Computing, aber der traditionelle Fokus auf die sieben grundlegenden Emotionen begrenzt ihre Anwendbarkeit auf das komplexe und sich erweiternde emotionale Spektrum. Um das Problem neuer und bisher unbekannter Emotionen in dynamischen FER-Szenarien im echten Leben zu lösen, schlagen wir ein neuartiges visuelles Sprachmodell vor, das stichprobenbasierte Textbeschreibungen (d.h. Bildunterschriften des Kontexts, Ausdrücke oder emotionaler Hinweise) als natürliche Sprachüberwachung nutzt. Das Ziel ist es, das Lernen reicher latenter Darstellungen zu verbessern, um Klassifikation bei null Schuss (zero-shot classification) durchzuführen. Um dies zu testen, bewerten wir die zero-shot-Klassifikation des Modells, das mit stichprobenbasierten Beschreibungen trainiert wurde, anhand von vier gängigen dynamischen FER-Datensätzen. Unsere Ergebnisse zeigen, dass dieser Ansatz im Vergleich zu Baseline-Methoden erhebliche Verbesserungen bringt. Insbesondere bei der zero-shot-Videoklassifikation übertreffen wir CLIP um über 10 % bezüglich des gewichteten Durchschnitts der Rückrufe (Weighted Average Recall) und um 5 % bezüglich des ungewichteten Durchschnitts der Rückrufe (Unweighted Average Recall) auf mehreren Datensätzen. Des Weiteren bewerten wir die aus dem Netzwerk gewonnenen Darstellungen, das mit stichprobenbasierten Beschreibungen trainiert wurde, anhand der nachgelagerten Aufgabe der Schätzungen psychischer Gesundheitssymptome und erreichen dabei Leistungen vergleichbar oder überlegen zu den besten aktuellen Methoden sowie eine starke Übereinstimmung mit menschlichen Experten. Insbesondere erreichen wir einen Pearsonschen Korrelationskoeffizienten von bis zu 0.85 bei der Schätzung der Schweregradsymptome bei Schizophrenie, was vergleichbar mit der Übereinstimmung zwischen menschlichen Experten ist. Der Code ist öffentlich verfügbar unter: https://github.com/NickyFot/EmoCLIP.