HyperAIHyperAI
il y a 7 jours

Séparation de sources audio zéro-shot par apprentissage basé sur des requêtes à partir de données faiblement étiquetées

Ke Chen, Xingjian Du, Bilei Zhu, Zejun Ma, Taylor Berg-Kirkpatrick, Shlomo Dubnov
Séparation de sources audio zéro-shot par apprentissage basé sur des requêtes à partir de données faiblement étiquetées
Résumé

Les techniques d’apprentissage profond destinées à séparer les signaux audio en différentes sources sonores font face à plusieurs défis. Les architectures standards exigent l’entraînement de modèles distincts pour chaque type de source audio. Bien que certains séparateurs universels utilisent un seul modèle pour cibler plusieurs sources, ils peinent à généraliser à des sources inconnues. Dans cet article, nous proposons un pipeline en trois composantes pour entraîner un séparateur audio universel à partir d’un grand ensemble de données, mais faiblement étiquetées : AudioSet. Premièrement, nous introduisons un système basé sur les transformateurs pour la détection d’événements sonores, adapté au traitement des données d’entraînement faiblement étiquetées. Deuxièmement, nous concevons un modèle de séparation audio basé sur des requêtes, qui exploite ces données pour l’entraînement du modèle. Troisièmement, nous proposons un processeur d’embeddings latents pour encoder les requêtes spécifiant les cibles audio à séparer, permettant ainsi une généralisation zéro-shot. Notre approche utilise un seul modèle pour la séparation de plusieurs types de sons, et repose exclusivement sur des données faiblement étiquetées pour l’entraînement. En outre, le séparateur audio proposé peut être utilisé dans un cadre zéro-shot, apprenant à séparer des types de sources audio jamais observés durant l’entraînement. Pour évaluer les performances de séparation, nous testons notre modèle sur MUSDB18 tout en entraînant sur AudioSet disjoint. Nous vérifions également la performance zéro-shot à travers une autre expérience sur des types de sources audio exclus de l’entraînement. Le modèle atteint des performances comparables en rapport source-distorsion (SDR) aux modèles supervisés actuels dans les deux cas.

Séparation de sources audio zéro-shot par apprentissage basé sur des requêtes à partir de données faiblement étiquetées | Articles de recherche récents | HyperAI