HyperAIHyperAI

Command Palette

Search for a command to run...

Buchstabenbasierte Spracherkennung mit Gated ConvNets

Vitaliy Liptchinsky Gabriel Synnaeve Ronan Collobert

Zusammenfassung

In der jüngsten Literatur beziehen sich „End-to-End“-Sprachsysteme oft auf buchstabenbasierte akustische Modelle, die sequenzbasiert trainiert werden, entweder durch ein rekurrentes Modell oder durch einen strukturierten Ausgabe-Lernansatz (wie z.B. CTC). Im Gegensatz zu traditionellen phon- (oder senone-) basierten Ansätzen vereinfachen diese „End-to-End“-Ansätze das Modellieren von Wortaussprachen und erfordern während des Trainings keinen Schritt der „gezwungenen Anpassung“. Phon-basierte Ansätze bleiben jedoch bei klassischen Benchmarks der Stand der Technik. In dieser Arbeit schlagen wir ein buchstabenbasiertes Spracherkennungssystem vor, das eine ConvNet-Akustikmodellierung nutzt. Wesentliche Bestandteile des ConvNets sind Gated Linear Units und hohe Dropout-Raten. Das ConvNet wird trainiert, Audisequenzen auf ihre entsprechenden Buchstabentranskriptionen abzubilden, entweder durch den klassischen CTC-Ansatz oder durch eine kürzlich entwickelte Variante namens ASG. Verknüpft mit einem einfachen Decoder zur Inferenz erreicht unser System die Leistung der besten existierenden buchstabenbasierten Systeme auf WSJ (in Bezug auf die Worte-Fehler-Rate) und zeigt nahezu den Stand der Technik auf LibriSpeech.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp