il y a 8 mois

Résumé

L'apprentissage des sons émis par les objets à partir de vidéos est un défi, car ils se superposent souvent fortement dans une seule piste audio. Les méthodes actuelles pour la séparation de sources sonores guidée par l'image contournent ce problème en s'entraînant avec des clips vidéo mixés artificiellement, mais cela impose des restrictions importantes sur la collecte de données d'entraînement et peut même empêcher l'apprentissage des propriétés des sons mixés "réels". Nous introduisons un paradigme d'entraînement co-séparation qui permet d'apprendre les sons au niveau des objets à partir de vidéos multi-sources non étiquetées. Notre objectif d'entraînement innovant exige que les sons séparés par le réseau neuronal profond soient constamment identifiables pour des objets similaires, tout en reproduisant fidèlement les pistes audio au niveau de la vidéo pour chaque paire de sources d'entraînement. Notre approche dissocie les sons dans des vidéos de test réalistes, même dans les cas où un objet n'a pas été observé individuellement lors de l'entraînement. Nous obtenons des résultats d'état de l'art en séparation de sources sonores guidée par l'image et en débruitage audio pour les jeux de données MUSIC, AudioSet et AV-Bench.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Multimodal

Traitement Audio Et Vocal

Compréhension Vidéo

Audio

Multimodal

Vision Par Ordinateur

Tâche

Gao Ruohan ; Grauman Kristen

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Multimodal

Traitement Audio Et Vocal

Compréhension Vidéo

Audio

Multimodal

Vision Par Ordinateur

Tâche

Gao Ruohan ; Grauman Kristen

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Séparation Co-Sonore des Objets Visuels

Gao Ruohan ; Grauman Kristen

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Séparation Co-Sonore des Objets Visuels

Gao Ruohan ; Grauman Kristen

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Séparation Co-Sonore des Objets Visuels

Gao Ruohan ; Grauman Kristen

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters