HyperAIHyperAI
vor 16 Tagen

AutoSpeech: Neural Architecture Search für die Sprechererkennung

Shaojin Ding, Tianlong Chen, Xinyu Gong, Weiwei Zha, Zhangyang Wang
AutoSpeech: Neural Architecture Search für die Sprechererkennung
Abstract

Spracherkennungssysteme, die auf Faltungsneuralen Netzen (Convolutional Neural Networks, CNNs) basieren, werden häufig mit standardmäßigen Grundarchitekturen wie VGG-Net oder ResNet aufgebaut. Diese Grundarchitekturen wurden jedoch ursprünglich für die Bildklassifikation entwickelt und sind daher möglicherweise nicht natürlicherweise für die Spracherkennung geeignet. Aufgrund der prohibitiv hohen Komplexität einer manuellen Exploration des Architekturraums schlagen wir erstmals einen Ansatz zur neuronalen Architektursuche für Aufgaben der Spracherkennung vor, der als AutoSpeech bezeichnet wird. Unser Algorithmus identifiziert zunächst die optimale Kombination von Operationen in einer neuronalen Zelle und leitet anschließend ein CNN-Modell durch wiederholtes Stapeln dieser neuronalen Zelle ab. Das endgültige Spracherkennungsmodell erhält man durch das Training des abgeleiteten CNN-Modells gemäß dem herkömmlichen Verfahren. Zur Evaluierung des vorgeschlagenen Ansatzes führen wir Experimente sowohl für die Sprachidentifikation als auch für die Spracherkennung auf der VoxCeleb1-Datenbank durch. Die Ergebnisse zeigen, dass die aus dem vorgeschlagenen Ansatz abgeleiteten CNN-Architekturen die derzeitigen Spracherkennungssysteme, die auf den Grundarchitekturen VGG-M, ResNet-18 und ResNet-34 basieren, erheblich überlegen sind, während sie gleichzeitig eine geringere Modellkomplexität aufweisen.

AutoSpeech: Neural Architecture Search für die Sprechererkennung | Neueste Forschungsarbeiten | HyperAI