MossFormer: Erweitern der Leistungsgrenze der monauralen Sprachtrennung mittels gated Single-Head Transformer mit convolution-augmentierten gemeinsamen Self-Attentions

Transformer-basierte Modelle haben bei der monauralen Sprachtrennung erhebliche Leistungsverbesserungen erzielt. Dennoch besteht weiterhin eine Leistungslücke gegenüber einem kürzlich vorgeschlagenen oberen Grenzwert. Die Hauptbeschränkung der derzeitigen Dual-Path-Transformer-Modelle liegt in der ineffizienten Modellierung von langreichweitigen elementaren Wechselwirkungen und lokalen Merkmalsmustern. In dieser Arbeit erreichen wir den oberen Grenzwert durch die Einführung einer gateten Single-Head-Transformer-Architektur mit konvolutionserweiterten gemeinsamen Self-Attention-Operationen, die wir \textit{MossFormer} (\textit{Mo}naural \textit{s}peech \textit{s}eparation Trans\textit{Former}) nennen. Um die indirekten elementaren Wechselwirkungen über die Chunks in der Dual-Path-Architektur effektiv zu lösen, verwendet MossFormer eine gemeinsame lokale und globale Self-Attention-Architektur, die gleichzeitig eine vollständige Berechnung der Self-Attention innerhalb lokaler Chunks und eine linearisierte, kostengünstige Self-Attention über die gesamte Sequenz durchführt. Diese gemeinsame Aufmerksamkeit ermöglicht es dem MossFormer-Modell, direkte Wechselwirkungen über die gesamte Sequenz zu modellieren. Zusätzlich integrieren wir ein leistungsfähiges aufmerksamkeitsbasiertes Gating-Verfahren mit vereinfachten Single-Head-Self-Attention-Operationen. Neben der aufmerksamkeitsbasierten Modellierung langreichweitiger Zusammenhänge erweitern wir MossFormer zudem um Konvolutionen zur Modellierung lokaler Muster in Positionsweise. Als Ergebnis übertrifft MossFormer die bisherigen Modelle deutlich und erzielt die bisher besten Ergebnisse auf den Benchmarks WSJ0-2/3mix und WHAM!/WHAMR!. Unser Modell erreicht auf WSJ0-3mix den SI-SDRi-Grenzwert von 21,2 dB und liegt lediglich 0,3 dB unter dem Grenzwert von 23,1 dB auf WSJ0-2mix.