HyperAIHyperAI

Command Palette

Search for a command to run...

Ko-Separierung von Schall von visuellen Objekten

Gao Ruohan ; Grauman Kristen

Zusammenfassung

Das Lernen von Objektgeräuschen aus Videos ist herausfordernd, da sie oft in einem einzelnen Audiospur stark überlappen. Aktuelle Methoden zur visuell gesteuerten Audio-Quellenseparation umgehen dieses Problem, indem sie mit künstlich gemischten Videoclips trainiert werden. Dies legt jedoch unhandliche Einschränkungen auf die Datensammlung für das Training und kann sogar das Lernen der Eigenschaften "echter" gemischter Geräusche verhindern. Wir stellen ein Co-Separation-Trainingsparadigma vor, das es ermöglicht, objektspezifische Geräusche aus nicht gekennzeichneten Mehrquellen-Videos zu lernen. Unser neues Trainingsziel erfordert, dass die vom tiefen neuronalen Netz getrennten Audiosignale für ähnliche Objekte konsistent identifizierbar sind, während gleichzeitig genaue videoebene Audospuren für jedes Quellentrainingspaar reproduziert werden. Unser Ansatz trennt Geräusche in realistischen Testvideos, selbst in Fällen, in denen ein Objekt während des Trainings nicht einzeln beobachtet wurde. Wir erzielen Stand-des-Wissens-Ergebnisse bei der visuell gesteuerten Audio-Quellenseparation und Audio-Entstörung für die Datensätze MUSIC, AudioSet und AV-Bench.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ko-Separierung von Schall von visuellen Objekten | Paper | HyperAI