HyperAIHyperAI

Command Palette

Search for a command to run...

Stand der Technik der Spracherkennung unter Verwendung von Multi-Stream Self-Attention mit dilatierten 1D-Faltungen

Kyu J. Han Ramon Prieto Kaixing Wu Tao Ma

Zusammenfassung

Self-Attention hat für zahlreiche Anwendungen im Bereich der natürlichen Sprachverarbeitung (NLP) große Erfolge erzielt, was zur Untersuchung der Anwendung von Self-Attention auch auf Sprachprobleme führte. Die Wirksamkeit von Self-Attention in Sprachanwendungen scheint jedoch noch nicht vollständig ausgeschöpft zu sein, da die Behandlung hochkorrelierter Sprachframes im Kontext von Self-Attention herausfordernd ist. In diesem Artikel stellen wir eine neue Architektur neuronalen Netzwerks vor, namens Multi-Stream Self-Attention, um dieses Problem anzugehen und die Effektivität des Self-Attention-Mechanismus für die Spracherkennung zu verbessern. Die vorgeschlagene Architektur besteht aus parallelen Strömen von Self-Attention-Encodern, wobei jeder Stream Schichten von 1D-Faltungsoperationen mit dilatierten Kernen aufweist, deren Dilatationsraten jeweils eindeutig für den einzelnen Stream sind, gefolgt von einer Self-Attention-Schicht. Der Self-Attention-Mechanismus in jedem Stream konzentriert sich ausschließlich auf eine einzelne Auflösung der Eingabesprachframes, wodurch die Aufmerksamkeitsberechnung effizienter wird. In einem späteren Stadium werden die Ausgaben aller Ströme zusammengefügt und anschließend linear auf das endgültige Embedding projiziert. Durch Stapelung der vorgeschlagenen Multi-Stream Self-Attention-Encoder-Blöcke und Nachverbesserung der resultierenden Lattices mittels neuronalen Sprachmodellen erreichen wir eine Wortfehlerquote von 2,2 % auf dem Test-Clean-Datensatz der LibriSpeech-Korpus – die bisher bestgemeldete Zahl für diesen Datensatz.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Stand der Technik der Spracherkennung unter Verwendung von Multi-Stream Self-Attention mit dilatierten 1D-Faltungen | Paper | HyperAI