HyperAIHyperAI
vor 2 Monaten

Lernen von audiovisuellen Sprachrepräsentationen durch maskeierte multimodale Clustervorhersage

Shi, Bowen ; Hsu, Wei-Ning ; Lakhotia, Kushal ; Mohamed, Abdelrahman
Lernen von audiovisuellen Sprachrepräsentationen durch maskeierte multimodale Clustervorhersage
Abstract

Videoaufnahmen von Sprache enthalten korrelierte audiovisuelle Informationen, die ein starkes Signal für das Lernen von Sprachrepräsentationen aus den Lippenbewegungen des Sprechers und dem erzeugten Klang bieten. Wir stellen Audio-Visual Hidden Unit BERT (AV-HuBERT) vor, einen selbstüberwachten Repräsentationslernrahmen für audiovisuelle Sprache, der mehrkanalige Videoeingaben maskiert und automatisch entdeckte sowie iterativ verfeinerte multimodale verborgene Einheiten vorhersagt. AV-HuBERT lernt leistungsfähige audiovisuelle Sprachrepräsentationen, die sowohl das Lippenlesen als auch die automatische Spracherkennung verbessern. Auf dem größten öffentlichen Benchmark für Lippenlesen, LRS3 (433 Stunden), erreicht AV-HuBERT mit nur 30 Stunden beschrifteten Daten einen WER von 32,5 %, was den bisherigen Stand der Technik (33,6 %) übertrifft, der mit tausendmal mehr transkribierten Videodaten (31.000 Stunden) trainiert wurde. Der WER für Lippenlesen wird auf 26,9 % reduziert, wenn alle 433 Stunden beschrifteter Daten aus LRS3 verwendet werden und mit Selbsttraining kombiniert werden. Die Verwendung unserer audiovisuellen Repräsentation auf demselben Benchmark für reine Audiospracherkennung führt zu einer relativen WER-Reduktion von 40 % im Vergleich zur besten bisher bekannten Leistung (1,3 % gegenüber 2,3 %). Unser Code und unsere Modelle sind unter https://github.com/facebookresearch/av_hubert verfügbar.