HyperAIHyperAI

Command Palette

Search for a command to run...

Effiziente Sequenztransduktion durch gemeinsame Vorhersage von Tokens und Dauern

Hainan Xu Fei Jia Somshubra Majumdar He Huang Shinji Watanabe Boris Ginsburg

Zusammenfassung

Diese Arbeit stellt eine neuartige Token-and-Duration-Transducer-(TDT)-Architektur für sequenz-zu-Sequenz-Aufgaben vor. Die TDT erweitert herkömmliche RNN-Transducer-Architekturen dadurch, dass sie sowohl ein Token als auch dessen Dauer – also die Anzahl der Eingabeframes, die durch das emittierte Token abgedeckt werden – gemeinsam vorhersagt. Dies wird durch ein gemeinsames Netzwerk erreicht, das zwei Ausgaben besitzt, die jeweils unabhängig normalisiert werden, um Verteilungen über Tokens und Dauern zu generieren. Während der Inferenz können TDT-Modelle Eingabeframes basierend auf der vorhergesagten Dauer überspringen, was sie erheblich schneller macht als herkömmliche Transducer, die das Encoder-Ausgabesignal frame-basiert verarbeiten. TDT-Modelle erreichen sowohl eine höhere Genauigkeit als auch eine deutlich schnellere Inferenz als herkömmliche Transducer auf verschiedenen sequenzbezogenen Umwandlungsaufgaben. Für Spracherkennung erzielen TDT-Modelle eine bessere Genauigkeit und bis zu 2,82-fach schnellere Inferenz als herkömmliche Transducer. Bei der Sprachübersetzung erreichen TDT-Modelle gegenüber herkömmlichen Transducern einen absoluten Gewinn von über 1 BLEU auf dem MUST-C-Test und sind 2,27-fach schneller. In Aufgaben zur Sprachintentionserkennung und Slot-Filling verbessern TDT-Modelle die Intentionsgenauigkeit um bis zu über 1 Prozentpunkte (absolut) gegenüber herkömmlichen Transducern und laufen bis zu 1,28-fach schneller. Die Implementierung des TDT-Modells wird gemeinsam mit dem NeMo-Toolkit (https://github.com/NVIDIA/NeMo) öffentlich zugänglich gemacht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp