Apprentissage de représentations efficaces pour la détection de mots-clés avec une perte de triplet

Ces dernières années, les embeddings métriques basés sur la perte de triplet sont devenus une norme de facto pour plusieurs problèmes importants en vision par ordinateur, notamment la réidentification de personnes. En revanche, dans le domaine de la reconnaissance vocale, les embeddings métriques générés par la perte de triplet sont rarement utilisés, même pour des tâches de classification. Nous comblons cette lacune en démontrant qu’une combinaison de deux techniques d’apprentissage de représentations — un embedding basé sur la perte de triplet associé à une variante du k plus proches voisins (kNN) pour la classification, au lieu de la perte d’entropie croisée — améliore significativement (de 26 % à 38 %) la précision de classification des réseaux de convolution sur un jeu de données dérivé de LibriSpeech, nommé LibriWords. Pour ce faire, nous proposons une nouvelle méthode d’extraction de triplets fondée sur la similarité phonétique. Nous améliorons également le meilleur résultat publié à ce jour (SOTA) pour la classification sur le jeu de données Google Speech Commands V1 (10+2 classes) d’environ 34 %, atteignant une précision de 98,55 %, pour la version V2 (10+2 classes) d’environ 20 %, atteignant 98,37 %, et pour la classification à 35 classes sur V2 de plus de 50 %, atteignant 97,0 %.