Vollkonvolutive Spracherkennung

Der aktuelle Stand der Technik bei Spracherkennungssystemen basiert auf rekurrenten neuronalen Netzen für akustische und/oder sprachliche Modellierung und stützt sich auf Feature-Extraktionspipelines zur Gewinnung von Mel-Filterbanken oder cepstral Coeffizienten. In dieser Arbeit stellen wir einen alternativen Ansatz vor, der ausschließlich auf konvolutionellen neuronalen Netzen beruht und die jüngsten Fortschritte in der akustischen Modellierung aus dem Rohsignal und in der sprachlichen Modellierung nutzt. Dieser vollständig konvolutive Ansatz wird von Anfang bis Ende trainiert, um Zeichen direkt aus dem Rohsignal zuvorzusagen, wodurch der Schritt der Feature-Extraktion ganz eliminiert wird. Ein externes konvolutives Sprachmodell wird verwendet, um Wörter zu dekodieren. Bei den Wall Street Journal-Daten erreicht unser Modell den aktuellen Stand der Technik. Bei Librispeech melden wir eine Spitzenleistung unter den End-to-End-Modellen, einschließlich Deep Speech 2, das mit 12-mal mehr akustischen Daten und erheblich mehr linguistischen Daten trainiert wurde.