HyperAIHyperAI

Command Palette

Search for a command to run...

Réseau de redimensionnement des dimensions pour la reconnaissance d'locuteur

Ivan Yakovlev Rostislav Makarov Andrei Balykin Pavel Malov Anton Okhotnikov Nikita Torgashov

Résumé

Dans cet article, nous présentons Reshape Dimensions Network (ReDimNet), une nouvelle architecture de réseau neuronal destinée à extraire des représentations d'locuteur au niveau de l'énoncé. Notre approche exploite le remodelage de la dimension des cartes de caractéristiques 2D en représentations de signal 1D et inversement, permettant une utilisation conjointe des blocs 1D et 2D. Nous proposons une topologie de réseau originale qui préserve le volume des sorties canal-temps-fréquence des blocs 1D et 2D, facilitant ainsi une agrégation efficace des cartes de caractéristiques résiduelles. En outre, ReDimNet est facilement évolutif, et nous introduisons une gamme de tailles de modèles variant de 1 à 15 millions de paramètres, ainsi que de 0,5 à 20 GMACs. Nos résultats expérimentaux démontrent que ReDimNet atteint des performances de pointe dans la reconnaissance d'locuteur tout en réduisant la complexité computationnelle et le nombre de paramètres du modèle.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp