HyperAIHyperAI

Command Palette

Search for a command to run...

Lipreading mit zeitlichen Faltungsnetzwerken

Brais Martinez Pingchuan Ma Stavros Petridis Maja Pantic

Zusammenfassung

Die Lippenlesung hat in letzter Zeit aufgrund von Fortschritten im Bereich des tiefen Lernens erhebliche Forschungsinteressen geweckt. Das derzeitige Stand der Technik für die Erkennung isolierter Wörter in natürlicher Umgebung basiert auf einem Residualnetzwerk und Bidirektionalen Gated Recurrent Unit (BGRU)-Schichten. In dieser Arbeit behandeln wir die Limitationen dieses Modells und schlagen Verbesserungen vor, die seine Leistung weiter steigern. Erstens wird die BGRU-Schicht durch Temporale Faltungsnetzwerke (Temporal Convolutional Networks, TCN) ersetzt. Zweitens vereinfachen wir erheblich das Trainingsverfahren, sodass das Modell nun in einem einzigen Trainingsstadium optimiert werden kann. Drittens zeigen wir, dass die derzeitige state-of-the-art-Methode zu Modellen führt, die nicht gut auf Variationen der Sequenzlänge generalisieren, und adressieren dieses Problem durch die Einführung einer variablen Länge-Augmentation. Wir präsentieren Ergebnisse auf den größten öffentlich verfügbaren Datensätzen für die Erkennung isolierter Wörter im Englischen und Chinesischen, jeweils LRW und LRW1000. Unser vorgeschlagenes Modell erreicht absolute Verbesserungen von 1,2 % und 3,2 % auf diesen Datensätzen, was die neue state-of-the-art-Leistung darstellt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lipreading mit zeitlichen Faltungsnetzwerken | Paper | HyperAI