Ko-Separierung von Schall von visuellen Objekten

Das Lernen von Objektgeräuschen aus Videos ist herausfordernd, da sie oft in einem einzelnen Audiospur stark überlappen. Aktuelle Methoden zur visuell gesteuerten Audio-Quellenseparation umgehen dieses Problem, indem sie mit künstlich gemischten Videoclips trainiert werden. Dies legt jedoch unhandliche Einschränkungen auf die Datensammlung für das Training und kann sogar das Lernen der Eigenschaften "echter" gemischter Geräusche verhindern. Wir stellen ein Co-Separation-Trainingsparadigma vor, das es ermöglicht, objektspezifische Geräusche aus nicht gekennzeichneten Mehrquellen-Videos zu lernen. Unser neues Trainingsziel erfordert, dass die vom tiefen neuronalen Netz getrennten Audiosignale für ähnliche Objekte konsistent identifizierbar sind, während gleichzeitig genaue videoebene Audospuren für jedes Quellentrainingspaar reproduziert werden. Unser Ansatz trennt Geräusche in realistischen Testvideos, selbst in Fällen, in denen ein Objekt während des Trainings nicht einzeln beobachtet wurde. Wir erzielen Stand-des-Wissens-Ergebnisse bei der visuell gesteuerten Audio-Quellenseparation und Audio-Entstörung für die Datensätze MUSIC, AudioSet und AV-Bench.