Command Palette
Search for a command to run...
EfficientNet-Absolute Zero für kontinuierliches Sprach-Schlüsselwort-Erkennung
EfficientNet-Absolute Zero für kontinuierliches Sprach-Schlüsselwort-Erkennung
Amir Mohammad Rostami Ali Karimi Mohammad Ali Akhaee
Zusammenfassung
Die Schlüsselworterkennung (Keyword Spotting) ist ein Prozess, bei dem Computer spezifische Wörter oder Ausdrücke in aufgezeichneten Sprachaufnahmen identifizieren. Tiefgreifende neuronale Netzwerkalgorithmen können diese Aufgabe bewältigen, wenn sie anhand eines geeigneten Datensatzes trainiert wurden. Hierzu wurde der Football Keyword Dataset (FKD), ein neuer Schlüsselworterkennungsdatensatz auf Persisch, mittels Crowdsourcing zusammengestellt. Der Datensatz umfasst annähernd 31.000 Samples in 18 Klassen. Zur Nutzung des FKD in praktischen Anwendungen, insbesondere mit kontinuierlicher Sprache, wurde eine Methode zur kontinuierlichen Sprachsynthese vorgeschlagen. Zudem wurde eine leichte Architektur namens EfficientNet-A0 (absolute null) entwickelt, indem der Compound Scaling-Ansatz auf EfficientNet-B0 angewandt wurde, speziell für den Einsatz im Schlüsselworterkennungsaufgaben. Schließlich wurde die vorgeschlagene Architektur mit verschiedenen Modellen evaluiert. Es zeigte sich, dass EfficientNet-A0 und ResNet-Modelle gegenüber anderen Modellen auf diesem Datensatz eine überlegene Leistung erbringen.