HyperAIHyperAI
vor 18 Tagen

Multimodale Bewertung der scheinbaren Persönlichkeit unter Verwendung von Feature-Attention und Fehlerkonsistenz-Beschränkung

{Hamdi Dibeklioğlu, Uğur Güdükbay, Süleyman Aslan}
Abstract

Personality Computing und affectives Computing, bei denen die Erkennung von Persönlichkeitsmerkmalen von zentraler Bedeutung ist, gewinnen in zahlreichen Forschungsbereichen zunehmend an Aufmerksamkeit. Wir stellen einen neuartigen Ansatz zur Erkennung der Big-Five-Persönlichkeitsmerkmale aus Videos vor. Dazu nutzen wir vier unterschiedliche Modalitäten: Umgebungsaussehen (Szene), Gesichtsaussehen, Sprache und transkribierte Sprache. Durch spezialisierte Subnetze für jede dieser Modalitäten lernt unser Modell zuverlässige, modality-spezifische Darstellungen, die mittels eines Aufmerksamkeitsmechanismus fusioniert werden, um jeweils die optimalen Gewichtungen für die einzelnen Dimensionen dieser Darstellungen zu ermitteln und so eine optimale Kombination multimodaler Informationen zu erreichen. Eine neuartige Verlustfunktion wird eingesetzt, um sicherzustellen, dass jedes der zu schätzenden Persönlichkeitsmerkmale gleiche Bedeutung erhält, wobei eine Konsistenzbedingung die trait-spezifischen Fehler möglichst nahe beieinander hält. Um die Zuverlässigkeit unseres Modells weiter zu steigern, verwenden wir (vortrainierte) state-of-the-art-Architekturen – nämlich ResNet, VGGish und ELMo – als Backbone-Strukturen der modality-spezifischen Subnetze, die durch mehrschichtige Long Short-Term Memory-Netzwerke ergänzt werden, um zeitliche Dynamiken zu erfassen. Um die Berechnungskomplexität der multimodalen Optimierung zu minimieren, setzen wir ein zweistufiges Modellierungsverfahren ein: Zunächst werden die modality-spezifischen Subnetze separat trainiert, anschließend wird das gesamte Netzwerk gemeinsam feinjustiert, um multimodale Daten synergistisch zu modellieren. Auf dem großskaligen Datensatz ChaLearn First Impressions V2 Challenge evaluieren wir die Zuverlässigkeit unseres Modells sowie die informativen Eigenschaften der betrachteten Modalitäten. Experimentelle Ergebnisse belegen die Wirksamkeit des vorgeschlagenen Aufmerksamkeitsmechanismus und der Fehlerkonsistenzbedingung. Während die beste Leistung bei Verwendung einzelner Modalitäten durch Gesichtsinformationen erzielt wird, erreicht unser Modell mit allen vier Modalitäten eine durchschnittliche Genauigkeit von 91,8 % und übertrifft damit den Stand der Technik in der automatischen Persönlichkeitsanalyse.