Réseau de redimensionnement des dimensions pour la reconnaissance d'locuteur

Dans cet article, nous présentons Reshape Dimensions Network (ReDimNet), une nouvelle architecture de réseau neuronal destinée à extraire des représentations d'locuteur au niveau de l'énoncé. Notre approche exploite le remodelage de la dimension des cartes de caractéristiques 2D en représentations de signal 1D et inversement, permettant une utilisation conjointe des blocs 1D et 2D. Nous proposons une topologie de réseau originale qui préserve le volume des sorties canal-temps-fréquence des blocs 1D et 2D, facilitant ainsi une agrégation efficace des cartes de caractéristiques résiduelles. En outre, ReDimNet est facilement évolutif, et nous introduisons une gamme de tailles de modèles variant de 1 à 15 millions de paramètres, ainsi que de 0,5 à 20 GMACs. Nos résultats expérimentaux démontrent que ReDimNet atteint des performances de pointe dans la reconnaissance d'locuteur tout en réduisant la complexité computationnelle et le nombre de paramètres du modèle.