CLAPSep: Nutzung eines kontrastiv vortrainierten Modells für die multimodale abfragebasierte Zielklangextraktion

Die universelle Schallscheidung (USS) hat das Ziel, beliebige Arten von Schallereignissen aus realen Aufnahmen zu extrahieren. Dies kann durch sprachgefragte Zielextraktion (TSE) erreicht werden, die in der Regel aus zwei Komponenten besteht: einem Abfrage-Netzwerk, das Benutzerabfragen in bedingte Einbettungen umwandelt, und einem Schallscheidungs-Netzwerk, das entsprechend das Zielextraktions-Signal isoliert. Bestehende Methoden trainieren Modelle in der Regel von Grund auf neu. Als Folge davon sind erhebliche Datenmengen und Rechenressourcen erforderlich, um das zufällig initialisierte Modell dazu zu befähigen, Schallereignisse zu verstehen und entsprechend die Scheidung durchzuführen. In dieser Arbeit schlagen wir vor, vortrainierte Modelle in TSE-Modelle zu integrieren, um das obige Problem zu lösen. Genauer gesagt passen wir das leistungsstarke kontrastive sprach-audio vortrainierte Modell (CLAP) für USS an und bezeichnen es als CLAPSep. CLAPSep akzeptiert auch flexible Benutzereingaben und berücksichtigt sowohl positive als auch negative Benutzerhinweise von ein- und/oder mehrmodalen Quellen zur Zielextraktion. Diese wesentlichen Merkmale von CLAPSep können nicht nur die Extraktionsleistung verbessern, sondern auch die Vielseitigkeit seiner Anwendung erhöhen. Wir führen umfangreiche Experimente mit 5 verschiedenen Datensätzen durch, um die überlegene Leistungsfähigkeit und die Null- und Few-Shot-Generalisierbarkeit unseres vorgeschlagenen CLAPSep bei schneller Trainingskonvergenz zu demonstrieren, wobei es bestehende Methoden deutlich übertreffen kann. Der vollständige Code sowie einige Audibeispiele wurden veröffentlicht, um Reproduktion und Bewertung zu ermöglichen.