Deep Speech 2 : Reconnaissance vocale de bout en bout en anglais et en mandarin

Nous démontrons qu'une approche d'apprentissage profond de bout en bout peut être utilisée pour reconnaître soit l'anglais, soit le mandarin chinois, deux langues radicalement différentes. En remplaçant des chaînes entières de composants conçus manuellement par des réseaux neuronaux, l'apprentissage de bout en bout nous permet de traiter une grande variété de discours, y compris dans des environnements bruyants, avec des accents et différentes langues. Un élément clé de notre approche est l'application de techniques HPC (High Performance Computing), ce qui a permis d'accélérer notre système jusqu'à 7 fois par rapport à la version précédente. Grâce à cette efficacité, des expériences qui prenaient auparavant plusieurs semaines peuvent maintenant être réalisées en quelques jours. Cela nous permet d'itérer plus rapidement pour identifier des architectures et des algorithmes supérieurs. Par conséquent, dans plusieurs cas, notre système est compétitif avec la transcription effectuée par les travailleurs humains lorsqu'il est évalué sur des jeux de données standards. Enfin, en utilisant une technique appelée Batch Dispatch avec des GPU dans le centre de données, nous montrons que notre système peut être déployé à moindre coût dans un contexte en ligne, offrant une faible latence lors du service à grande échelle aux utilisateurs.