Ein multimodales System zur Persönlichkeitsvorhersage

Die automatische Vorhersage von Persönlichkeitsmerkmalen besitzt zahlreiche Anwendungen im Alltag, beispielsweise in der Forensik, bei Empfehlungssystemen oder personalisierten Dienstleistungen. In dieser Arbeit wird ein Lösungsrahmen vorgestellt, um das Problem der Vorhersage von Persönlichkeitsmerkmalen eines Nutzers aus Videodaten zu lösen. Aus dem Video des Nutzers werden ambiente, facial und audio-basierte Merkmale extrahiert, die anschließend zur Vorhersage des Endoutputs genutzt werden. Die visuellen und audio-basierten Modalitäten werden auf zwei verschiedene Weisen kombiniert: entweder durch Mittelung der Vorhersagen, die jeweils aus den einzelnen Modalitäten stammen, oder durch Verkettung der Merkmale im multimodalen Ansatz. Zur Evaluierung der Systemleistung wird der in Chalearn-16 veröffentlichte Datensatz verwendet. Experimentelle Ergebnisse zeigen, dass sich eine bessere Leistung erzielen lässt, wenn lediglich eine geringe Anzahl von Bildern verwendet wird, anstatt alle im Video enthaltenen Bilder heranzuziehen.