CSVC-Net : Classification de commandes vocales à changement de code utilisant un réseau profond CNN-LSTM
Le bengali courant a adopté de nombreux mots anglais en raison de l’influence coloniale. En conversation, il est courant de mélanger anglais et bengali, phénomène connu sous le nom de changement de code (Code-switching, CS). Pour concevoir un classificateur de commandes vocales à l’ère actuelle, où l’usage du CS ne cesse d’augmenter, il est souvent nécessaire de mapper une commande de base unique à ses multiples variantes, exprimées dans diverses combinaisons linguistiques. Les travaux réalisés sur la parole bengalie se sont principalement concentrés sur la classification de mots isolés, et restent généralement insuffisants pour comprendre les relations sémantiques complexes présentes dans les phrases. Ce papier propose « CSVC-Net », une architecture basée sur CNN-LSTM pour classifier les commandes orales présentant un changement de code entre bengali et anglais. Afin de refléter fidèlement la réalité, il introduit également un nouveau jeu de données soigneusement constitué, nommé « Banglish », comprenant 3 840 fichiers audio de commandes informatiques appartenant à 11 catégories, avec au total 64 variations. Le pipeline proposé traite le signal audio d’entrée à travers une série d’étapes de transformation et d’augmentation adaptées, permettant au modèle d’atteindre une précision de 92,08 % sur le jeu de données curatifs. En outre, la robustesse du modèle proposé a été validée par comparaison avec différentes architectures, ainsi que par des tests sous divers niveaux de bruit, révélant des performances prometteuses, ce qui démontre sa faisabilité dans des scénarios du monde réel.