Selbst-Aufmerksamkeit für Audio-Super-Resolution

Faltungen operieren nur lokal und sind daher nicht in der Lage, globale Interaktionen zu modellieren.Selbst-Aufmerksamkeit kann jedoch Darstellungen lernen, die langreichweitige Abhängigkeiten in Sequenzen erfassen.Wir schlagen eine Netzwerkarchitektur für Audio-Super-Resolution vor, die Faltung und Selbst-Aufmerksamkeit kombiniert.Die aufmerksamkeitsbasierte Feature-Weise Lineare Modulation (AFiLM) verwendet das Mechanismus der Selbst-Aufmerksamkeit anstelle von rekurrenten neuronalen Netzen, um die Aktivierungen des faltungsbasierenden Modells zu modulieren.Ausführliche Experimente zeigen, dass unser Modell bei Standard-Benchmarks bestehende Ansätze übertrifft.Darüber hinaus ermöglicht es eine höhere Parallelisierung, was zu erheblich schnellerem Training führt.