Audiovisuelle Spracherkennung mit einer hybriden CTC/Aufmerksamkeitsarchitektur

Neuere Arbeiten im Bereich der Spracherkennung basieren entweder auf connectionistischer temporaler Klassifikation (CTC) oder auf sequenzbasierten Modellen für die Zeichenerkennung auf Zeichenbasis. CTC geht von der bedingten Unabhängigkeit einzelner Zeichen aus, während aufmerksamkeitsbasierte Modelle nichtsequenzielle Zuordnungen ermöglichen. Daher könnten wir einen CTC-Verlust in Kombination mit einem aufmerksamkeitsbasierten Modell verwenden, um monotonische Zuordnungen zu erzwingen und gleichzeitig die Annahme der bedingten Unabhängigkeit abzulehnen. In dieser Arbeit nutzen wir die kürzlich vorgeschlagene hybride CTC/Aufmerksamkeitsarchitektur für die audiovisuelle Erkennung von Sprache in natürlichen Umgebungen. Nach bestem Wissen ist dies das erste Mal, dass eine solche hybride Architektur für die audiovisuelle Spracherkennung eingesetzt wird. Wir verwenden die LRS2-Datenbank und zeigen, dass das vorgeschlagene audiovisuelle Modell den absoluten Word-Fehler-Rate (Wortfehlerrate) des rein akustischen Modells um 1,3 % senkt und eine neue Bestleistung auf der LRS2-Datenbank (7 % Wortfehlerrate) erreicht. Zudem beobachten wir, dass das audiovisuelle Modell bei verschiedenen Arten von Rauschen und abnehmendem Signal-Rausch-Verhältnis (SNR) das akustische Modell deutlich übertrifft (bis zu 32,9 % absolute Verbesserung der Wortfehlerrate).请注意,这里“in-the-wild”被翻译为“in natürlichen Umgebungen”,这是指在真实世界条件下进行的测试,而非受控实验室环境。此外,“absolute decrease”和“absolute improvement”分别被翻译为“absoluter Rückgang”和“absolute Verbesserung”,以强调这些变化的具体数值。