Effiziente Sequenztransduktion durch gemeinsame Vorhersage von Tokens und Dauern

Diese Arbeit stellt eine neuartige Token-and-Duration-Transducer-(TDT)-Architektur für sequenz-zu-Sequenz-Aufgaben vor. Die TDT erweitert herkömmliche RNN-Transducer-Architekturen dadurch, dass sie sowohl ein Token als auch dessen Dauer – also die Anzahl der Eingabeframes, die durch das emittierte Token abgedeckt werden – gemeinsam vorhersagt. Dies wird durch ein gemeinsames Netzwerk erreicht, das zwei Ausgaben besitzt, die jeweils unabhängig normalisiert werden, um Verteilungen über Tokens und Dauern zu generieren. Während der Inferenz können TDT-Modelle Eingabeframes basierend auf der vorhergesagten Dauer überspringen, was sie erheblich schneller macht als herkömmliche Transducer, die das Encoder-Ausgabesignal frame-basiert verarbeiten. TDT-Modelle erreichen sowohl eine höhere Genauigkeit als auch eine deutlich schnellere Inferenz als herkömmliche Transducer auf verschiedenen sequenzbezogenen Umwandlungsaufgaben. Für Spracherkennung erzielen TDT-Modelle eine bessere Genauigkeit und bis zu 2,82-fach schnellere Inferenz als herkömmliche Transducer. Bei der Sprachübersetzung erreichen TDT-Modelle gegenüber herkömmlichen Transducern einen absoluten Gewinn von über 1 BLEU auf dem MUST-C-Test und sind 2,27-fach schneller. In Aufgaben zur Sprachintentionserkennung und Slot-Filling verbessern TDT-Modelle die Intentionsgenauigkeit um bis zu über 1 Prozentpunkte (absolut) gegenüber herkömmlichen Transducern und laufen bis zu 1,28-fach schneller. Die Implementierung des TDT-Modells wird gemeinsam mit dem NeMo-Toolkit (https://github.com/NVIDIA/NeMo) öffentlich zugänglich gemacht.