vor 17 Tagen

Keyword Transformer: Ein Selbst-Attention-Modell für die Keyword-Spotting

Axel Berg, Mark O&#39, Connor, Miguel Tairum Cruz

Abstract

Die Transformer-Architektur hat sich in vielen Bereichen durchgesetzt, darunter natürliche Sprachverarbeitung, Computer Vision und Spracherkennung. Bei der Schlüsselworterkennung wird Selbst-Attention vorwiegend auf topologisch konvolutionelle oder rekurrente Encoder aufgesetzt. Wir untersuchen verschiedene Ansätze zur Anpassung der Transformer-Architektur an die Schlüsselworterkennung und stellen den Keyword Transformer (KWT) vor, eine vollständig selbst-attentionale Architektur, die die state-of-the-art-Leistung auf mehreren Aufgaben übertreffen kann, ohne dass Vortrainierung oder zusätzliche Daten erforderlich sind. Überraschenderweise übertrifft diese einfache Architektur komplexere Modelle, die konvolutionale, rekurrente und attentionale Schichten kombinieren. Der KWT kann als direkter Ersatz für diese Modelle eingesetzt werden und erreicht zwei neue Benchmark-Rekorde auf dem Google Speech Commands-Datensatz mit einer Genauigkeit von jeweils 98,6 % und 97,7 % bei den 12- und 35-Befehls-Aufgaben.