EfficientNet-Absolute Zero für kontinuierliches Sprach-Schlüsselwort-Erkennung

Die Schlüsselworterkennung (Keyword Spotting) ist ein Prozess, bei dem Computer spezifische Wörter oder Ausdrücke in aufgezeichneten Sprachaufnahmen identifizieren. Tiefgreifende neuronale Netzwerkalgorithmen können diese Aufgabe bewältigen, wenn sie anhand eines geeigneten Datensatzes trainiert wurden. Hierzu wurde der Football Keyword Dataset (FKD), ein neuer Schlüsselworterkennungsdatensatz auf Persisch, mittels Crowdsourcing zusammengestellt. Der Datensatz umfasst annähernd 31.000 Samples in 18 Klassen. Zur Nutzung des FKD in praktischen Anwendungen, insbesondere mit kontinuierlicher Sprache, wurde eine Methode zur kontinuierlichen Sprachsynthese vorgeschlagen. Zudem wurde eine leichte Architektur namens EfficientNet-A0 (absolute null) entwickelt, indem der Compound Scaling-Ansatz auf EfficientNet-B0 angewandt wurde, speziell für den Einsatz im Schlüsselworterkennungsaufgaben. Schließlich wurde die vorgeschlagene Architektur mit verschiedenen Modellen evaluiert. Es zeigte sich, dass EfficientNet-A0 und ResNet-Modelle gegenüber anderen Modellen auf diesem Datensatz eine überlegene Leistung erbringen.