CAT : Un outil ASR basé sur CTC-CRF pour combler le fossé entre les approches hybrides et end-to-end, visant l'efficacité des données et une faible latence

Dans cet article, nous présentons un nouveau kit logiciel open source pour la reconnaissance vocale, nommé CAT (CTC-CRF based ASR Toolkit). CAT intègre l’efficacité en données de l’approche hybride et la simplicité de l’approche end-to-end, offrant une implémentation complète des modèles CTC-CRF ainsi que des scripts complets d’entraînement et de test pour plusieurs benchmarks en anglais et chinois. Les expériences montrent que CAT atteint des résultats de pointe, comparables à ceux des modèles hybrides ajustés finement dans Kaldi, tout en disposant d’un pipeline d’entraînement bien plus simple. Par rapport aux modèles E2E non modulaires existants, CAT se distingue par une meilleure performance sur des jeux de données de taille limitée, démontrant ainsi son efficacité en données. En outre, nous proposons une nouvelle méthode appelée contextualized soft forgetting, qui permet à CAT de réaliser une reconnaissance vocale en flux (streaming) sans dégradation de précision. Nous espérons que CAT, en particulier son cadre fondé sur CTC-CRF et son logiciel associé, suscitera un vif intérêt dans la communauté, et pourra être davantage exploré et amélioré à l’avenir.