HyperAIHyperAI

Command Palette

Search for a command to run...

Séparation Co-Sonore des Objets Visuels

Gao Ruohan ; Grauman Kristen

Résumé

L'apprentissage des sons émis par les objets à partir de vidéos est un défi, car ils se superposent souvent fortement dans une seule piste audio. Les méthodes actuelles pour la séparation de sources sonores guidée par l'image contournent ce problème en s'entraînant avec des clips vidéo mixés artificiellement, mais cela impose des restrictions importantes sur la collecte de données d'entraînement et peut même empêcher l'apprentissage des propriétés des sons mixés "réels". Nous introduisons un paradigme d'entraînement co-séparation qui permet d'apprendre les sons au niveau des objets à partir de vidéos multi-sources non étiquetées. Notre objectif d'entraînement innovant exige que les sons séparés par le réseau neuronal profond soient constamment identifiables pour des objets similaires, tout en reproduisant fidèlement les pistes audio au niveau de la vidéo pour chaque paire de sources d'entraînement. Notre approche dissocie les sons dans des vidéos de test réalistes, même dans les cas où un objet n'a pas été observé individuellement lors de l'entraînement. Nous obtenons des résultats d'état de l'art en séparation de sources sonores guidée par l'image et en débruitage audio pour les jeux de données MUSIC, AudioSet et AV-Bench.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp