HyperAIHyperAI

Command Palette

Search for a command to run...

Echtzeit-Zielklangextraktion

Bandhav Veluri Justin Chan Malek Itani Tuochao Chen Takuya Yoshioka Shyamnath Gollakota

Zusammenfassung

Wir präsentieren das erste neuronale Netzwerkmodell, das die Echtzeit- und Streaming-Auswahl von Zielsounds erreicht. Um dies zu erreichen, schlagen wir Waveformer vor, eine Encoder-Decoder-Architektur mit einer Schicht gestapelter dilatierter kausaler Faltungsschichten als Encoder und einer Transformer-Dekoderschicht als Decoder. Diese hybride Architektur nutzt dilatierte kausale Faltungen zur effizienten Verarbeitung großer Rezeptorfelder und profitiert gleichzeitig von der Generalisierungsfähigkeit transformerbasierter Architekturen. Unsere Evaluierungen zeigen Verbesserungen um bis zu 2,2-3,3 dB im SI-SNRi im Vergleich zu früheren Modellen für diese Aufgabe, wobei unser Modell 1,2-4-mal kleiner ist und eine 1,5-2-mal geringere Laufzeit aufweist. Wir stellen Code, Datensatz und Audiosamples bereit: https://waveformer.cs.washington.edu/.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp