HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen von audiovisuellen Sprachrepräsentationen durch maskeierte multimodale Clustervorhersage

Shi Bowen ; Hsu Wei-Ning ; Lakhotia Kushal ; Mohamed Abdelrahman

Zusammenfassung

Videoaufnahmen von Sprache enthalten korrelierte audiovisuelle Informationen, die ein starkes Signal für das Lernen von Sprachrepräsentationen aus den Lippenbewegungen des Sprechers und dem erzeugten Klang bieten. Wir stellen Audio-Visual Hidden Unit BERT (AV-HuBERT) vor, einen selbstüberwachten Repräsentationslernrahmen für audiovisuelle Sprache, der mehrkanalige Videoeingaben maskiert und automatisch entdeckte sowie iterativ verfeinerte multimodale verborgene Einheiten vorhersagt. AV-HuBERT lernt leistungsfähige audiovisuelle Sprachrepräsentationen, die sowohl das Lippenlesen als auch die automatische Spracherkennung verbessern. Auf dem größten öffentlichen Benchmark für Lippenlesen, LRS3 (433 Stunden), erreicht AV-HuBERT mit nur 30 Stunden beschrifteten Daten einen WER von 32,5 %, was den bisherigen Stand der Technik (33,6 %) übertrifft, der mit tausendmal mehr transkribierten Videodaten (31.000 Stunden) trainiert wurde. Der WER für Lippenlesen wird auf 26,9 % reduziert, wenn alle 433 Stunden beschrifteter Daten aus LRS3 verwendet werden und mit Selbsttraining kombiniert werden. Die Verwendung unserer audiovisuellen Repräsentation auf demselben Benchmark für reine Audiospracherkennung führt zu einer relativen WER-Reduktion von 40 % im Vergleich zur besten bisher bekannten Leistung (1,3 % gegenüber 2,3 %). Unser Code und unsere Modelle sind unter https://github.com/facebookresearch/av_hubert verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lernen von audiovisuellen Sprachrepräsentationen durch maskeierte multimodale Clustervorhersage | Paper | HyperAI