vor 2 Monaten

Seq-U-Net: Ein eindimensionales kausales U-Net für effizientes Sequenzmodellierung

Daniel Stoller; Mi Tian; Sebastian Ewert; Simon Dixon

Abstract

Faltungsschichtnetze (CNNs) mit verdünnten Filtern wie WaveNet oder temporale Faltungsschichtnetze (TCNs) haben in verschiedenen sequenziellen Modellierungsaufgaben gute Ergebnisse gezeigt. Die effiziente Modellierung langer Abhängigkeiten in diesen Sequenzen ist jedoch weiterhin eine Herausforderung. Obwohl das Rezeptivfeld dieser Modelle exponentiell mit der Anzahl der Schichten wächst, sind die Berechnungen der Faltungen über sehr lange Merkmalssequenzen in jeder Schicht zeit- und speicheraufwendig, was die praktische Verwendung längerer Rezeptivfelder verhindert. Um die Effizienz zu erhöhen, nutzen wir die Hypothese der „langsamen Merkmale“ („slow feature“), wonach viele interessante Merkmale im Laufe der Zeit langsam variieren. Dazu verwenden wir eine U-Net-Architektur, die Merkmale auf mehreren Zeitskalen berechnet, und passen sie an unser autoregressives Szenario an, indem wir die Faltungen kausal gestalten. Wir wenden unser Modell („Seq-U-Net“) auf verschiedene Aufgaben an, darunter Spracherzeugung und Audioerzeugung. Im Vergleich zu TCN und WaveNet spart unser Netzwerk konsequent Speicherplatz und Rechenzeit ein, insbesondere bei der Audiosynthese werden Trainings- und Inferenzgeschwindigkeiten um mehr als 4-fach beschleunigt, während es in allen Aufgaben vergleichbare Leistungen erzielt.