HyperAIHyperAI

Command Palette

Search for a command to run...

Vollkonvolutive Spracherkennung

Neil Zeghidour extsuperscript1,2,* Qiantong Xu extsuperscript1,* Vitaliy Liptchinsky extsuperscript1 Nicolas Usunier extsuperscript1 Gabriel Synnaeve extsuperscript1 Ronan Collobert extsuperscript1

Zusammenfassung

Der aktuelle Stand der Technik bei Spracherkennungssystemen basiert auf rekurrenten neuronalen Netzen für akustische und/oder sprachliche Modellierung und stützt sich auf Feature-Extraktionspipelines zur Gewinnung von Mel-Filterbanken oder cepstral Coeffizienten. In dieser Arbeit stellen wir einen alternativen Ansatz vor, der ausschließlich auf konvolutionellen neuronalen Netzen beruht und die jüngsten Fortschritte in der akustischen Modellierung aus dem Rohsignal und in der sprachlichen Modellierung nutzt. Dieser vollständig konvolutive Ansatz wird von Anfang bis Ende trainiert, um Zeichen direkt aus dem Rohsignal zuvorzusagen, wodurch der Schritt der Feature-Extraktion ganz eliminiert wird. Ein externes konvolutives Sprachmodell wird verwendet, um Wörter zu dekodieren. Bei den Wall Street Journal-Daten erreicht unser Modell den aktuellen Stand der Technik. Bei Librispeech melden wir eine Spitzenleistung unter den End-to-End-Modellen, einschließlich Deep Speech 2, das mit 12-mal mehr akustischen Daten und erheblich mehr linguistischen Daten trainiert wurde.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Vollkonvolutive Spracherkennung | Paper | HyperAI