Sprachidentifikation durch Sprechsprache mit ConvNets

Sprachidentifikation (LI) ist ein wichtiger erster Schritt in mehreren Sprachverarbeitungssystemen. Mit der steigenden Anzahl von sprachbasierten Assistenten ist die sprachliche Identifikation im Bereich der Sprachverarbeitung zu einem weit geforschten Feld geworden. Um das Problem der Spracherkennung anzugehen, können wir entweder einen impliziten Ansatz wählen, bei dem nur die Sprache selbst vorhanden ist, oder einen expliziten Ansatz, bei dem Text mit seiner entsprechenden Transkription zur Verfügung steht. Diese Arbeit konzentriert sich auf den impliziten Ansatz aufgrund des Fehlens transkriptiver Daten. In dieser Arbeit werden bestehende Modelle evaluiert und ein neues aufmerksamkeitsbasiertes Modell für die Sprachidentifikation vorgeschlagen, das log-Mel-Spektrogramm-Bilder als Eingabe verwendet. Wir stellen auch die Effektivität roher Audiosignale als Merkmale für neuronale Netzmodelle bei LI-Aufgaben dar. Für das Training und die Evaluierung der Modelle klassifizierten wir sechs Sprachen (Englisch, Französisch, Deutsch, Spanisch, Russisch und Italienisch) mit einer Genauigkeit von 95,4 % sowie vier Sprachen (Englisch, Französisch, Deutsch und Spanisch) mit einer Genauigkeit von 96,3 % aus dem VoxForge-Datensatz. Dieser Ansatz kann weiter skaliert werden, um weitere Sprachen zu integrieren.