vor 11 Tagen

Visuell geleitete selbstüberwachte Lernmethode für Sprachdarstellungen

Abhinav Shukla, Konstantinos Vougioukas, Pingchuan Ma, Stavros Petridis, Maja Pantic

Abstract

Selbstüberwachtes Darstellungslernen hat in letzter Zeit erhebliches Forschungsinteresse sowohl für audio- als auch für visuelle Modalitäten hervorgerufen. Die meisten Arbeiten konzentrieren sich jedoch typischerweise auf eine einzelne Modality oder ein spezifisches Merkmal, während es bisher nur wenige Studien gibt, die die Interaktion zwischen beiden Modalitäten für das Lernen selbstüberwachter Darstellungen untersuchen. Wir stellen einen Rahmen vor, um audio-orientierte Darstellungen im Kontext audiovisueller Sprache durch visuelle Anleitung zu lernen. Dabei nutzen wir ein generatives Audio-zu-Video-Trainingsverfahren, bei dem ein statisches Bild, das einem gegebenen Audio-Clip entspricht, animiert wird, und der generierte Video-Output so optimiert wird, dass er dem tatsächlichen Video des Sprachsegments möglichst nahekommt. Durch diesen Prozess lernt das Audio-Encoder-Netzwerk nützliche Sprachdarstellungen, die wir auf Aufgaben der Emotionserkennung und Spracherkennung evaluieren. Wir erreichen state-of-the-art Ergebnisse bei der Emotionserkennung und wettbewerbsfähige Ergebnisse bei der Spracherkennung. Dies zeigt das Potenzial der visuellen Anleitung für das Lernen audio-orientierter Darstellungen als eine neuartige Herangehensweise an das selbstüberwachte Lernen, die bisher kaum erforscht wurde. Die vorgeschlagenen unsupervisierten Audio-Features können eine praktisch unbegrenzte Menge an ungelabelten audiovisuellen Sprachdaten nutzen und weisen eine große Zahl potenziell vielversprechender Anwendungen auf.