HyperAIHyperAI

Command Palette

Search for a command to run...

End-to-end Audiovisuelle Spracherkennung mit Conformern

Pingchuan Ma Stavros Petridis Maja Pantic

Zusammenfassung

In dieser Arbeit stellen wir ein hybrides CTC/Aufmerksamkeitsmodell vor, das auf einem ResNet-18 und einem konvolutionsverstärkten Transformer (Conformer) basiert und in einer end-to-end Weise trainiert werden kann. Insbesondere lernen die Audio- und Videoencoder direkt aus rohen Pixeln und Audio-Waveformen Features zu extrahieren, die dann den Conformern zugeführt werden. Die Fusion erfolgt anschließend über einen Mehrschichtperzeptron (MLP). Das Modell lernt, Zeichen unter Verwendung einer Kombination aus CTC und einem Aufmerksamkeitsmechanismus zu erkennen. Wir zeigen, dass das end-to-end Training, anstelle der in der Literatur üblichen vorgeberechneten visuellen Features, die Verwendung eines Conformers anstelle eines rekurrenten Netzes sowie die Anwendung eines transformer-basierten Sprachmodells die Leistung unseres Modells erheblich verbessert. Wir präsentieren Ergebnisse auf den größten öffentlich verfügbaren Datensätzen für satzorientierte Spracherkennung, Lip Reading Sentences 2 (LRS2) und Lip Reading Sentences 3 (LRS3). Die Ergebnisse belegen, dass unsere vorgeschlagenen Modelle in rein akustischen, rein visuellen sowie multimodalen Experimenten den Stand der Technik um einen großen Vorsprung erhöhen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp