HyperAI

Ist Deine Freundin Sauer? Algorithmen Verstehen Sie Besser Als Heterosexuelle Männer

vor 6 Jahren
Große Fabrikangelegenheiten
神经小兮
特色图像

Normalerweise gibt es zwei Möglichkeiten, mithilfe von KI-Technologie die Emotionen einer Person zu beurteilen: eine über den Gesichtsausdruck und die andere über die Stimme. Erstere ist bereits relativ ausgereift, während sich die Forschung zu Emotionen bei der Spracherkennung rasant entwickelt. Vor kurzem haben einige wissenschaftliche Forschungsteams neue Methoden vorgeschlagen, um Emotionen in der Stimme von Benutzern genauer zu erkennen.

Es gibt viele Artikel auf Zhihu über So erkennen Sie, ob Ihre Freundin wütend istAuf solche Fragen antworteten manche Leute: Je weniger Worte, desto größer die Sache; andere sagten: Wenn ich wirklich wütend bin, melde ich mich einen Monat lang nicht bei Ihnen; wenn ich vortäusche, wütend zu sein, verhalte ich mich kokett und sage: „Ich bin wütend.“

"Ist meine Freundin wütend?" ist eine ewige Frage.

Also, „Ich bin nicht wütend/wirklich nicht wütend“ einer Freundin = „sehr wütend“; „Ich bin wütend“ = „Benimm dich wie ein verwöhntes Kind, ich bin nicht wütend, gib mir einfach Küsse, Umarmungen und bau mich auf.“ Diese Art emotionaler Logik macht heterosexuelle Männer verrückt.

Ich kann die Gefühle meiner Freundin überhaupt nicht spüren.

Wie erkenne ich, ob meine Freundin wütend ist oder nicht?Man sagt, dass KI Erfolge bei der Erkennung von Emotionen durch Musikhören erzielt hat und dass die Ergebnisse möglicherweise genauer sind als die Ergebnisse eines Jungen, der sich am Kopf kratzt und lange nachdenkt.

Alexa Sprachassistent: Eine warme und fürsorgliche Persönlichkeit entwickeln

Amazons Sprachassistentin Alexa ist möglicherweise schlauer als Ihr Freund, wenn es um die Wahrnehmung von Emotionen geht.

Dieses Jahr konnte Alexa nach dem letzten UpgradeAnalysieren Sie Tonhöhe und Lautstärke von Benutzerbefehlen, identifizieren Sie Emotionen wie Glück, Freude, Wut, Traurigkeit, Gereiztheit, Angst, Ekel, Langeweile und sogar Stress und reagieren Sie auf entsprechende Befehle.

Wenn sich beispielsweise ein Mädchen die Nase putzt und hustet, während es Alexa sagt, dass es ein bisschen hungrig ist, analysiert Alexa den Ton ihrer Stimme (schwach, tief) und die Hintergrundgeräusche (Husten, Naseputzen) und kommt zu dem Schluss, dass sie wahrscheinlich krank ist, und sendet dann fürsorgliche Informationen von der Maschine aus: Möchtest du eine Schüssel Hühnersuppe oder Essen zum Mitnehmen? Oder sogar eine Flasche Hustensaft online bestellen und innerhalb einer Stunde nach Hause liefern lassen?

Ist dieses Verhalten nicht rücksichtsvoller als das eines heterosexuellen Freundes?

Künstliche Intelligenz zur Emotionsklassifizierung ist nichts Neues, aber seit kurzem hat Amazon Alexa-Sprache  Das Team hat vor einiger Zeit mit den traditionellen Methoden gebrochen und neue Forschungsergebnisse veröffentlicht.

Es werden traditionelle Methoden überwacht und die erhaltenen Trainingsdaten entsprechend dem emotionalen Zustand des Sprechers gekennzeichnet. Wissenschaftler des Alexa Speech-Teams von Amazon verfolgten kürzlich einen anderen Ansatz und veröffentlichten auf der International Conference on Acoustics, Speech, and Signal Processing (ICASSP) ein Papier, in dem sie ihren Ansatz vorstellten.„Verbesserung der Emotionsklassifizierung durch Variationsinferenz latenter Variablen“ (http://t.cn/Ai0se57g)

Anstatt das System anhand eines Korpus vollständig annotierter Stimmungsdaten zu trainieren, stellten sie einAdversarial Autoencoder (AAE). Dies ist ein Video mit 10 verschiedenen Sprechern. 10,000 individuellEin öffentlicher Datensatz mit Äußerungen.

Die Ergebnisse ihrer Studie zeigten, dass bei der Beurteilung der Stimmen von MenschenPotenz(Emotionsvalenz) oderSentimentaler Wert(emotionaler Wert), das neuronale NetzwerkGenauigkeit um 4 % verbessert.Dank der Bemühungen des Teams kann die Stimmung oder der emotionale Zustand des Benutzers zuverlässig anhand seiner Stimme bestimmt werden.

Schematische Darstellung des AAE-Modellprinzips

Viktor Rozgic, Co-Autor des Artikels und leitender angewandter Wissenschaftler in der Alexa Speech-Gruppe, erklärte, dass ein Adversarial Autoencoder ein zweiteiliges Modell ist, das einen Encoder enthält – einen Encoder und einen Decoder. Der Encoder lernt, eine kompakte (oder latente) Darstellung der Eingabesprache zu generieren, die alle Eigenschaften der Trainingsbeispiele kodiert. Der Decoder rekonstruiert die Eingabe aus der kompakten Darstellung.

Architektur von Adversarial Autoencodern

Die emotionalen Repräsentationen der Forscher sindDrei NetzwerkknotenDie drei Netzwerkknoten werden jeweils für drei Emotionsmessungen verwendet:Potenz,Aktivierung(Aktivierung, ob der Sprecher aufmerksam, engagiert oder passiv ist) undHerrschaft(Fühlt sich der Sprecher durch die Umgebungssituation kontrolliert).

TrainingspunkteDrei StufenBenehmen. In der ersten Phase werden Encoder und Decoder separat mit unbeschrifteten Daten trainiert. Die zweite Phase ist das Adversarial Training, eine Technik, bei der der Adversarial Discriminator versucht, zwischen realen, vom Encoder erzeugten Darstellungen und künstlichen Darstellungen zu unterscheiden. Dieser Schritt dient der Justierung des Encoders. In der dritten Phase wird der Encoder angepasst, um sicherzustellen, dass die latente Emotionsdarstellung zur Vorhersage der Emotionsbezeichnungen der Trainingsdaten verwendet wird.

In „handgefertigten“ Experimenten mit Merkmalsdarstellungen auf Satzebene zur Erfassung von Informationen über Sprachsignale war ihr KI-System bei der Beurteilung der Valenz um 3 % genauer als ein herkömmlich trainiertes Netzwerk.

Darüber hinaus zeigen sie, dass sich die Leistung um 4% verbesserte, wenn dem Netzwerk eine Sequenz akustischer Eigenschaften zugeführt wurde, die 20-Millisekunden-Frames (oder Audioclips) darstellten.

MIT-Labor entwickelt neuronales Netzwerk, das Wut in 1,2 Sekunden wahrnehmen kann

Amazon ist nicht das einzige Unternehmen, das an einer verbesserten sprachbasierten Emotionserkennung arbeitet.MIT Media Lab Affectiva  Kürzlich wurde ein neuronales Netzwerk SoundNet demonstriert: Es kann Innerhalb von 1,2 Sekunden(Übertrifft die Zeit, die Menschen brauchen, um Wut wahrzunehmen) Klassifizieren Sie Wut und Audiodaten, unabhängig von der Sprache.

In einer neuen Arbeit berichten Forscher von Affectiva Transferlernen von Klangdarstellungen zur Erkennung von Wut in der Sprache》 (https://arxiv.org/pdf/1902.02120.pdf)Das System wird in beschrieben.Es basiert auf Sprach- und Gesichtsdaten, um emotionale Profile zu erstellen.

Um die Generalisierbarkeit des KI-Modells zu testen, evaluierte das Team ein auf Mandarin-chinesischen Sprachemotionsdaten trainiertes Modell (das Mandarin Affective Corpus oder MASC) anhand eines auf Englisch trainierten Modells. Als ErgebnisEs lässt sich nicht nur gut auf englische Sprachdaten verallgemeinern, sondern funktioniert auch gut bei chinesischen Daten, obwohl die Leistung leicht nachlässt.

ROC-Kurven der Trainingsergebnisse für Englisch und Chinesisch,Die gestrichelte Linie stellt den ROC eines zufälligen Klassifikators dar. 

„Die Wuterkennung hat ein breites Anwendungsspektrum, darunter Konversationsschnittstellen und soziale Roboter, interaktive Sprachantwortsysteme (IVR), Marktforschung, Beurteilung und Schulung von Kundenbetreuern sowie virtuelle und erweiterte Realität“, sagte das Team.

Zukünftige Arbeiten werden weitere große öffentliche Korpora entwickeln und KI-Systeme für verwandte sprachbasierte Aufgaben trainieren, etwa das Erkennen anderer Arten von Emotionen und affektiven Zuständen.

Israelische App erkennt Emotionen: Genauigkeitsrate 80%

Israelische Startups Über das Verbale hinaus  Es wurde eine Anwendung namens Moodies entwickelt, die die Stimme des Sprechers über ein Mikrofon erfassen und nach einer etwa 20 Sekunden dauernden Analyse die emotionalen Eigenschaften des Sprechers bestimmen kann.

Moodies verfügt über einen speziellen Algorithmus, der Rhythmus, Timing, Lautstärke, Pausen, Energie und andere emotionale Dimensionen des Sprechers analysiert.

Obwohl Experten für Sprachanalyse anerkennen, dass zwischen Sprache und Emotionen eine Korrelation besteht, stellen viele Experten die Genauigkeit solcher Echtzeitmessungen in Frage. Die von solchen Werkzeugen gesammelten Tonproben sind sehr begrenzt und für eine tatsächliche Analyse kann das Sammeln von Proben über mehrere Jahre hinweg erforderlich sein.

„Beim aktuellen Stand der kognitiven Neurowissenschaft verfügen wir einfach nicht über die Technologie, um die Gedanken oder Gefühle einer Person wirklich zu verstehen“, sagte Andrew Baron, Assistenzprofessor für Psychologie an der Columbia University.

Dan Emodi, Vizepräsident für Marketing bei Beyond Verbal, sagte jedoch, dass Moodies seit mehr als drei Jahren forscht und auf der Grundlage von BenutzerfeedbackDie Genauigkeit der angewandten Analyse beträgt ungefähr 80%.

Beyond Verbal sagte, dass Moodies zur Selbstemotionsdiagnose, im Kundenservicecenter zur Kundenbetreuung und sogar zur Erkennung von Lügen bei Bewerbern eingesetzt werden könne. Natürlich können Sie es auch zu einem Dating-Treffen mitbringen, um zu sehen, ob die andere Person wirklich an Ihnen interessiert ist.

Die Erkennung von Sprachemotionen steht weiterhin vor Herausforderungen

Allerdings forschen viele Technologieunternehmen schon seit vielen Jahren auf diesem Gebiet und haben gute Ergebnisse erzielt. Wie Andrew Baron oben erwähnte, steht diese Technologie jedoch vor mehreren Herausforderungen.

So wie das ruhige „Ich bin nicht wütend“ einer Freundin nicht bedeutet, dass sie wirklich nicht wütend ist, kann eine Aussprache eine Vielzahl von Emotionen enthalten.Auch die Grenzen zwischen verschiedenen Emotionen sind schwer zu definieren, welche Emotion ist derzeit die dominante Emotion?

Nicht alle Töne sind deutlich und intensiv; Der Ausdruck von Gefühlen ist eine höchst persönliche Angelegenheit, die je nach Person, Umgebung und sogar Kultur stark variiert.

Darüber hinaus kann eine Stimmung zwar über einen längeren Zeitraum anhalten, es kann jedoch auch zu schnellen Stimmungsschwankungen während der Periode kommen.Erkennt das Emotionserkennungssystem langfristige oder kurzfristige Emotionen?Beispielsweise leidet jemand unter Arbeitslosigkeit, ist aber aufgrund der Sorge seiner Freunde kurzzeitig glücklich. Aber eigentlich ist er immer noch traurig. Wie sollte KI seinen Zustand definieren?

Eine weitere beunruhigende Frage ist, ob diese Produkte, sobald sie die Emotionen der Menschen verstehen können, aufgrund ihrer Abhängigkeit von ihnen mehr private Fragen stellen und mehr Informationen über die Benutzer sammeln werden, wodurchAus „Dienstleistung“ „Transaktion“ machen?

Ich hoffe, Sie werden Dabai und jemanden haben, der Sie wirklich versteht.

Viele Menschen wünschen sich einen warmherzigen und fürsorglichen Baymax. Wird dieser Roboter mit hoher emotionaler Intelligenz, den es nur in Science-Fiction-Animationen gibt, in Zukunft Realität?

Ich sprach sehr langsam und niedergeschlagen mit Xiao Bing, bekam aber eine unbarmherzige Antwort.

Derzeit mangelt es vielen Chatbots noch an emotionaler Intelligenz und sie sind nicht in der Lage, die kleinsten Emotionen der Benutzer wahrzunehmen, was häufig dazu führt, dass Gespräche abebben. Daher sind die Menschen, die Sie wirklich verstehen können, immer noch diejenigen, die an Ihrer Seite bleiben und Ihnen zuhören.

-- über--