HyperAI
Back to Headlines

LAION und Intel präsentieren EmoNet: AI erkennt 40 Emotionen auf Basis von Gesichtern und Stimmen.

vor 4 Tagen

LAION und Intel präsentieren Werkzeuge, die KI dabei helfen, die Intensität von 40 verschiedenen Emotionen zu ermitteln. Eines der neuesten Open-Source-Projekte dieser beiden Unternehmen ist darauf abgestellt, KI-Systemen ein tieferes Verständnis menschlicher Emotionen zu ermöglichen. Das "Empathic Insight"-Paket umfasst Modelle und Datensätze, die entwickelt wurden, um Gesichtsbilder oder Audioaufnahmen zu analysieren und die Stärke von 40 unterschiedlichen Emotionskategorien zu bewerten. Bei Gesichtern werden Emotionen auf einer Skala von 0 bis 7 bewertet, während bei Stimmen Emotionen als abwesend, leicht oder stark ausgeprägt klassifiziert werden. EmoNet bildet die Grundlage dieser Modelle. Es basiert auf einer Taxonomie von 40 Emotionskategorien, die aus dem Referenzwerk "Handbook of Emotions" in der Psychologie stammt. Die Forscher erweiterten die übliche Liste grundlegender Emotionen, indem sie kognitive Zustände wie Konzentration und Verwirrung, physische Zustände wie Schmerz und Erschöpfung sowie soziale Emotionen wie Scham und Stolz hinzufügten. Sie argumentieren, dass Emotionen nicht universell lesbar sind, sondern das Gehirn sie aus einem breiten Spektrum von Signalen konstruiert. Daher arbeiten ihre Modelle mit Wahrscheinlichkeitsabschätzungen, nicht mit festen Etiketten. Für das Training der Modelle verwendete das Team mehr als 203.000 Gesichtsbilder und 4.692 Audioaufnahmen. Die Sprachdaten stammen aus dem "Laion's Got Talent"-Datensatz, der über 5.000 Stunden synthetischer Aufnahmen in Englisch, Deutsch, Spanisch und Französisch enthält. Diese Aufnahmen wurden mit OpenAIs GPT-4o-Audio-Modell generiert. Um Datenschutzprobleme zu vermeiden und die demografische Vielfalt zu verbessern, stützte sich LAION ausschließlich auf synthetische Daten. Die Gesichtsbilder wurden mit Text-zu-Bild-Modellen wie Midjourney und Flux erstellt und dann programmatisch nach Alter, Geschlecht und Ethnizität variiert. Alle Audioaufnahmen wurden von Experten mit psychologischer Ausbildung begutachtet, und nur die Bewertungen, auf die drei unabhängige Gutachter sich einig waren, wurden in den Datensatz aufgenommen. LAION behauptet, dass die Empathic Insight-Modelle in Benchmarks bestehende Konkurrenten übertreffen. Auf dem EmoNet Face HQ-Benchmark zeigte das Empathic Insight Face-Modell eine höhere Korrelation mit den Bewertungen von Psychologie-Experten als Gemini 2.5 Pro oder geschlossene APIs wie Hume AI. Das zentrale Maß war, wie gut die KI-Assessment mit den Einschätzungen von Psychologen übereinstimmen. EmoNet stimmt in 40 Prozent der Fälle mit den Einschätzungen der Experten überein, verglichen mit 25-30 Prozent für herkömmliche visuelle Sprachmodelle und fast null für Zufallsbaselines. In Bezug auf die Erkennung von Emotionen in der Sprechstimme berichten die Forscher ebenfalls ausgezeichnete Ergebnisse. Das Empathic Insight Voice-Modell übertraf existierende Audiomodelle im EmoNet Voice Benchmark, indem es alle 40 Emotionskategorien korrekt identifizierte. Das Team experimentierte mit verschiedenen Modellgrößen und Audioverarbeitungsverfahren, um die Leistung zu optimieren. Neben der Emotionserkennung entwickelte LAION BUD-E Whisper, eine verbesserte Version des Whisper-Modells von OpenAI. Während Whisper Sprache in Text transkribiert, fügt BUD-E Whisper strukturierte Beschreibungen des emotionalen Tons hinzu, erkennt vocale Ausrufe wie Lachen und Seufzen und schätzt Merkmale des Sprechers, wie Alter und Geschlecht. Alle EmoNet-Modelle sind unter der Creative Commons-Lizenz (für die Modelle) und der Apache 2.0-Lizenz (für den Code) verfügbar. Die Datensätze und Modelle können von Hugging Face heruntergeladen werden. Sowohl die Empathic Insight-Modelle als auch BUD-E Whisper sind in "Small" und "Large"-Versionen erhältlich, um verschiedene Anwendungsfälle und Hardwareanforderungen zu bedienen. Intel unterstützt das Projekt seit 2021 im Rahmen seiner Open-Source-KI-Strategie, wobei der Fokus auf der Optimierung der Modelle für Intels Hardware liegt. Die Zusammenarbeit zwischen LAION und Intel zeigt, wie Open-Source-Initiativen die Entwicklung fortschrittlicher KI-Technologien fördern können, die sowohl ethisch verantwortungsvoll als auch effizient sind. EmoNet und BUD-E Whisper haben das Potenzial, die Interaktion zwischen Menschen und KI-Systemen erheblich zu verbessern, indem sie die Fähigkeit der KI erweitern, menschliche Emotionen in realistischen Szenarien zu erkennen und zu interpretieren.

Related Links