HyperAIHyperAI

Command Palette

Search for a command to run...

EmoCLIP: Eine Vision-Sprache-Methode für die zero-shot Erkennung von Video-Gesichtsausdrücken

Niki Maria Foteinopoulou Ioannis Patras

Zusammenfassung

Die Erkennung von Gesichtsausdrücken (Facial Expression Recognition, FER) ist eine wichtige Aufgabe im affektiven Computing, aber der traditionelle Fokus auf die sieben grundlegenden Emotionen begrenzt ihre Anwendbarkeit auf das komplexe und sich erweiternde emotionale Spektrum. Um das Problem neuer und bisher unbekannter Emotionen in dynamischen FER-Szenarien im echten Leben zu lösen, schlagen wir ein neuartiges visuelles Sprachmodell vor, das stichprobenbasierte Textbeschreibungen (d.h. Bildunterschriften des Kontexts, Ausdrücke oder emotionaler Hinweise) als natürliche Sprachüberwachung nutzt. Das Ziel ist es, das Lernen reicher latenter Darstellungen zu verbessern, um Klassifikation bei null Schuss (zero-shot classification) durchzuführen. Um dies zu testen, bewerten wir die zero-shot-Klassifikation des Modells, das mit stichprobenbasierten Beschreibungen trainiert wurde, anhand von vier gängigen dynamischen FER-Datensätzen. Unsere Ergebnisse zeigen, dass dieser Ansatz im Vergleich zu Baseline-Methoden erhebliche Verbesserungen bringt. Insbesondere bei der zero-shot-Videoklassifikation übertreffen wir CLIP um über 10 % bezüglich des gewichteten Durchschnitts der Rückrufe (Weighted Average Recall) und um 5 % bezüglich des ungewichteten Durchschnitts der Rückrufe (Unweighted Average Recall) auf mehreren Datensätzen. Des Weiteren bewerten wir die aus dem Netzwerk gewonnenen Darstellungen, das mit stichprobenbasierten Beschreibungen trainiert wurde, anhand der nachgelagerten Aufgabe der Schätzungen psychischer Gesundheitssymptome und erreichen dabei Leistungen vergleichbar oder überlegen zu den besten aktuellen Methoden sowie eine starke Übereinstimmung mit menschlichen Experten. Insbesondere erreichen wir einen Pearsonschen Korrelationskoeffizienten von bis zu 0.85 bei der Schätzung der Schweregradsymptome bei Schizophrenie, was vergleichbar mit der Übereinstimmung zwischen menschlichen Experten ist. Der Code ist öffentlich verfügbar unter: https://github.com/NickyFot/EmoCLIP.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp