HyperAIHyperAI

Command Palette

Search for a command to run...

Sprachidentifikation durch Sprechsprache mit ConvNets

Sarthak Shikhar Shukla Govind Mittal

Zusammenfassung

Sprachidentifikation (LI) ist ein wichtiger erster Schritt in mehreren Sprachverarbeitungssystemen. Mit der steigenden Anzahl von sprachbasierten Assistenten ist die sprachliche Identifikation im Bereich der Sprachverarbeitung zu einem weit geforschten Feld geworden. Um das Problem der Spracherkennung anzugehen, können wir entweder einen impliziten Ansatz wählen, bei dem nur die Sprache selbst vorhanden ist, oder einen expliziten Ansatz, bei dem Text mit seiner entsprechenden Transkription zur Verfügung steht. Diese Arbeit konzentriert sich auf den impliziten Ansatz aufgrund des Fehlens transkriptiver Daten. In dieser Arbeit werden bestehende Modelle evaluiert und ein neues aufmerksamkeitsbasiertes Modell für die Sprachidentifikation vorgeschlagen, das log-Mel-Spektrogramm-Bilder als Eingabe verwendet. Wir stellen auch die Effektivität roher Audiosignale als Merkmale für neuronale Netzmodelle bei LI-Aufgaben dar. Für das Training und die Evaluierung der Modelle klassifizierten wir sechs Sprachen (Englisch, Französisch, Deutsch, Spanisch, Russisch und Italienisch) mit einer Genauigkeit von 95,4 % sowie vier Sprachen (Englisch, Französisch, Deutsch und Spanisch) mit einer Genauigkeit von 96,3 % aus dem VoxForge-Datensatz. Dieser Ansatz kann weiter skaliert werden, um weitere Sprachen zu integrieren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp