HyperAIHyperAI

Command Palette

Search for a command to run...

Regroupement profond : Embeddings discriminants pour la segmentation et la séparation

John R. Hershey Zhuo Chen Jonathan Le Roux Shinji Watanabe

Résumé

Nous abordons le problème de la séparation des sources acoustiques dans un cadre d'apprentissage profond que nous appelons « deep clustering » (agrégation profonde). Au lieu d'estimer directement les signaux ou les fonctions de masquage, nous formons un réseau profond pour produire des plongements spectrogrammes discriminants pour les étiquettes de partition fournies dans les données d'entraînement. Les approches précédentes basées sur les réseaux profonds offrent de grands avantages en termes de puissance d'apprentissage et de vitesse, mais il n'était pas clair comment les utiliser pour séparer les signaux de manière indépendante des classes. En revanche, les approches d'agrégation spectrale sont flexibles par rapport aux classes et au nombre d'éléments à segmenter, mais il n'était pas clair comment tirer parti de la puissance d'apprentissage et de la vitesse des réseaux profonds. Pour obtenir le meilleur des deux mondes, nous utilisons une fonction objectif qui forme des plongements permettant une approximation de rang faible d'une matrice d'affinité idéale paire-à-paire, de manière indépendante des classes. Cela évite le coût élevé de la factorisation spectrale et produit plutôt des clusters compacts adaptés aux méthodes d'agrégation simples. Les segmentations sont donc implicitement encodées dans les plongements et peuvent être « décodées » par agrégation. Des expériences préliminaires montrent que la méthode proposée peut séparer la parole : lorsqu'elle est entraînée sur des caractéristiques spectrogrammes contenant des mélanges de deux locuteurs, et testée sur des mélanges d'un ensemble de locuteurs non utilisés pendant l'entraînement, elle peut inférer des fonctions de masquage qui améliorent la qualité du signal d'environ 6 dB. Nous montrons que le modèle peut généraliser à des mélanges à trois locuteurs malgré l'entraînement uniquement sur des mélanges à deux locuteurs. Le cadre peut être utilisé sans étiquettes de classe et a donc le potentiel d'être formé sur un ensemble diversifié de types sonores, et de généraliser à des sources inédites. Nous espérons que les travaux futurs permettront la segmentation de sons arbitraires, avec des extensions aux méthodes utilisant des tableaux de microphones ainsi qu'à la segmentation d'images et autres domaines.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Regroupement profond : Embeddings discriminants pour la segmentation et la séparation | Articles | HyperAI