HyperAIHyperAI
il y a 2 mois

Séparation Co-Sonore des Objets Visuels

Gao, Ruohan ; Grauman, Kristen
Séparation Co-Sonore des Objets Visuels
Résumé

L'apprentissage des sons émis par les objets à partir de vidéos est un défi, car ils se superposent souvent fortement dans une seule piste audio. Les méthodes actuelles pour la séparation de sources sonores guidée par l'image contournent ce problème en s'entraînant avec des clips vidéo mixés artificiellement, mais cela impose des restrictions importantes sur la collecte de données d'entraînement et peut même empêcher l'apprentissage des propriétés des sons mixés "réels". Nous introduisons un paradigme d'entraînement co-séparation qui permet d'apprendre les sons au niveau des objets à partir de vidéos multi-sources non étiquetées. Notre objectif d'entraînement innovant exige que les sons séparés par le réseau neuronal profond soient constamment identifiables pour des objets similaires, tout en reproduisant fidèlement les pistes audio au niveau de la vidéo pour chaque paire de sources d'entraînement. Notre approche dissocie les sons dans des vidéos de test réalistes, même dans les cas où un objet n'a pas été observé individuellement lors de l'entraînement. Nous obtenons des résultats d'état de l'art en séparation de sources sonores guidée par l'image et en débruitage audio pour les jeux de données MUSIC, AudioSet et AV-Bench.

Séparation Co-Sonore des Objets Visuels | Articles de recherche récents | HyperAI