vor einem Monat

Tiefe Audiovisuelle Spracherkennung

Triantafyllos Afouras; Joon Son Chung; Andrew Senior; Oriol Vinyals; Andrew Zisserman

Abstract

Das Ziel dieser Arbeit besteht darin, Phrasen und Sätze zu erkennen, die von einem sprechenden Gesicht ausgesprochen werden, mit oder ohne Audio. Im Gegensatz zu früheren Arbeiten, die sich auf die Erkennung einer begrenzten Anzahl von Wörtern oder Phrasen konzentriert haben, behandeln wir das Lippenlesen als ein offenes Problem – unbeschränkte natürliche Sprachsätze und Videos im echten Leben. Unsere wesentlichen Beiträge sind: (1) Wir vergleichen zwei Modelle für das Lippenlesen, eines verwendet einen CTC-Verlust (Connectionist Temporal Classification), das andere einen Sequenz-zu-Sequenz-Verlust. Beide Modelle basieren auf der Transformer-Selbst-Aufmerksamkeitsarchitektur; (2) Wir untersuchen, inwiefern das Lippenlesen dem Audiospracherkennung ergänzend ist, insbesondere wenn das Audiosignal rauschig ist; (3) Wir stellen einen neuen Datensatz für audiovisuelle Spracherkennung vor und veröffentlichen ihn öffentlich: LRS2-BBC, der Tausende natürlicher Sätze aus britischen Fernsehsendungen umfasst. Die von uns trainierten Modelle übertreffen die Leistung aller früheren Arbeiten auf einem Benchmark-Datensatz für Lippenlesen erheblich.