vor 7 Monaten

Zusammenfassung

Dieses Papier stellt ein konvolutionsrekurrentes Netzwerk mit Aufmerksamkeitsmechanismus für die Erkennung von Sprachbefehlen vor. Aufmerksamkeitsmodelle sind leistungsstarke Werkzeuge, um die Leistung bei natürlichsprachlichen, Bildunterschriftenerstellung und Sprachaufgaben zu verbessern. Das vorgeschlagene Modell erreicht eine neue Standarte der Genauigkeit von 94,1 % im Google Speech Commands Datensatz V1 und 94,5 % im V2-Datensatz (für die 20-Befehle-Erkennungsaufgabe), wobei es trotzdem nur eine geringe Anzahl von 202.000 trainierbaren Parametern aufweist. Die Ergebnisse werden mit früheren konvolutionellen Implementierungen in fünf verschiedenen Aufgaben verglichen (20-Befehle-Erkennung (V1 und V2), 12-Befehle-Erkennung (V1), 35-Wörter-Erkennung (V1) und Links-Rechts-Aufgabe (V1)). Wir präsentieren detaillierte Leistungsergebnisse und zeigen, dass der vorgeschlagene Aufmerksamkeitsmechanismus nicht nur die Leistung verbessert, sondern auch ermöglicht, welche Bereiche des Audios vom Netzwerk berücksichtigt wurden, wenn eine bestimmte Kategorie ausgegeben wurde.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Audio- Und Sprachverarbeitung

Faltungsneuronales Netzwerk

Douglas Coimbra de Andrade Sabato Leo Martin Loesener Da Silva Viana Christoph Bernkopf

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Audio- Und Sprachverarbeitung

Faltungsneuronales Netzwerk

Douglas Coimbra de Andrade Sabato Leo Martin Loesener Da Silva Viana Christoph Bernkopf

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Ein neuronales Aufmerksamkeitsmodell für die Erkennung von Sprachbefehlen

Douglas Coimbra de Andrade Sabato Leo Martin Loesener Da Silva Viana Christoph Bernkopf

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Ein neuronales Aufmerksamkeitsmodell für die Erkennung von Sprachbefehlen

Douglas Coimbra de Andrade Sabato Leo Martin Loesener Da Silva Viana Christoph Bernkopf

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Ein neuronales Aufmerksamkeitsmodell für die Erkennung von Sprachbefehlen

Douglas Coimbra de Andrade Sabato Leo Martin Loesener Da Silva Viana Christoph Bernkopf

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters