HyperAIHyperAI
il y a 2 mois

Regroupement profond : Embeddings discriminants pour la segmentation et la séparation

John R. Hershey; Zhuo Chen; Jonathan Le Roux; Shinji Watanabe
Regroupement profond : Embeddings discriminants pour la segmentation et la séparation
Résumé

Nous abordons le problème de la séparation des sources acoustiques dans un cadre d'apprentissage profond que nous appelons « deep clustering » (agrégation profonde). Au lieu d'estimer directement les signaux ou les fonctions de masquage, nous formons un réseau profond pour produire des plongements spectrogrammes discriminants pour les étiquettes de partition fournies dans les données d'entraînement. Les approches précédentes basées sur les réseaux profonds offrent de grands avantages en termes de puissance d'apprentissage et de vitesse, mais il n'était pas clair comment les utiliser pour séparer les signaux de manière indépendante des classes. En revanche, les approches d'agrégation spectrale sont flexibles par rapport aux classes et au nombre d'éléments à segmenter, mais il n'était pas clair comment tirer parti de la puissance d'apprentissage et de la vitesse des réseaux profonds. Pour obtenir le meilleur des deux mondes, nous utilisons une fonction objectif qui forme des plongements permettant une approximation de rang faible d'une matrice d'affinité idéale paire-à-paire, de manière indépendante des classes. Cela évite le coût élevé de la factorisation spectrale et produit plutôt des clusters compacts adaptés aux méthodes d'agrégation simples. Les segmentations sont donc implicitement encodées dans les plongements et peuvent être « décodées » par agrégation. Des expériences préliminaires montrent que la méthode proposée peut séparer la parole : lorsqu'elle est entraînée sur des caractéristiques spectrogrammes contenant des mélanges de deux locuteurs, et testée sur des mélanges d'un ensemble de locuteurs non utilisés pendant l'entraînement, elle peut inférer des fonctions de masquage qui améliorent la qualité du signal d'environ 6 dB. Nous montrons que le modèle peut généraliser à des mélanges à trois locuteurs malgré l'entraînement uniquement sur des mélanges à deux locuteurs. Le cadre peut être utilisé sans étiquettes de classe et a donc le potentiel d'être formé sur un ensemble diversifié de types sonores, et de généraliser à des sources inédites. Nous espérons que les travaux futurs permettront la segmentation de sons arbitraires, avec des extensions aux méthodes utilisant des tableaux de microphones ainsi qu'à la segmentation d'images et autres domaines.

Regroupement profond : Embeddings discriminants pour la segmentation et la séparation | Articles de recherche récents | HyperAI