Echtzeit-Zielklangextraktion

Wir präsentieren das erste neuronale Netzwerkmodell, das die Echtzeit- und Streaming-Auswahl von Zielsounds erreicht. Um dies zu erreichen, schlagen wir Waveformer vor, eine Encoder-Decoder-Architektur mit einer Schicht gestapelter dilatierter kausaler Faltungsschichten als Encoder und einer Transformer-Dekoderschicht als Decoder. Diese hybride Architektur nutzt dilatierte kausale Faltungen zur effizienten Verarbeitung großer Rezeptorfelder und profitiert gleichzeitig von der Generalisierungsfähigkeit transformerbasierter Architekturen. Unsere Evaluierungen zeigen Verbesserungen um bis zu 2,2-3,3 dB im SI-SNRi im Vergleich zu früheren Modellen für diese Aufgabe, wobei unser Modell 1,2-4-mal kleiner ist und eine 1,5-2-mal geringere Laufzeit aufweist. Wir stellen Code, Datensatz und Audiosamples bereit: https://waveformer.cs.washington.edu/.