HyperAIHyperAI
vor 2 Monaten

Gemeinsames Lernen visueller und auditiver Sprachrepräsentationen aus Rohdaten

Haliassos, Alexandros ; Ma, Pingchuan ; Mira, Rodrigo ; Petridis, Stavros ; Pantic, Maja
Gemeinsames Lernen visueller und auditiver Sprachrepräsentationen aus Rohdaten
Abstract

Wir stellen RAVEn vor, einen selbstüberwachten multimodalen Ansatz zur gemeinsamen Lernung von visuellen und auditiven Sprachrepräsentationen. Unser Vortrainingsziel besteht darin, maskierte Eingaben zu kodieren und dann kontextualisierte Ziele vorherzusagen, die von langsam sich ändernden Impulskodierern generiert werden. Aufgrund der inhärenten Unterschiede zwischen Video und Audio ist unser Design asymmetrisch in Bezug auf die VorTEXT-Aufgaben der beiden Modalitäten: Während der auditive Strom sowohl die visuellen als auch die auditiven Ziele vorhersagt, prognostiziert der visuelle Strom nur die auditiven Ziele. Wir beobachten starke Ergebnisse in Szenarien mit wenig und viel annotierten Daten, wenn wir die aus einer einzigen Vortrainingsebene resultierenden visuellen und auditiven Kodierer feintunen, bei denen die Kodierer gemeinsam trainiert werden. Bemerkenswerterweise übertrifft RAVEn alle selbstüberwachten Methoden bei der visuellen Spracherkennung (VSR) auf LRS3, und das Kombinieren von RAVEn mit dem Selbsttraining unter Verwendung von nur 30 Stunden annotierten Daten übertreffen sogar eine jüngste semiautomatisch überwachte Methode, die auf 90.000 Stunden nicht öffentlich zugänglicher Daten trainiert wurde. Gleichzeitig erzielen wir Stand-of-the-Art-Ergebnisse im Low-Resource-Szenario von LRS3 für auditive Spracherkennung (sowie für VSR). Unsere Ergebnisse deuten darauf hin, dass es möglich ist, leistungsstarke Sprachrepräsentationen vollständig aus rohem Video- und Audiomaterial zu lernen, d.h., ohne auf manuell erstellte Merkmale zurückzugreifen. Der Quellcode und die Modelle sind unter https://github.com/ahaliassos/raven verfügbar.