fairseq S2T: Schnelle Sprache-zu-Text-Modellierung mit fairseq

Wir stellen fairseq S2T vor, eine Erweiterung von fairseq für Sprache-zu-Text (S2T)-Modellierungsaufgaben wie end-to-end Spracherkennung und Sprache-zu-Text-Übersetzung. Sie folgt fairseq’s sorgfältigem Design hinsichtlich Skalierbarkeit und Erweiterbarkeit. Wir bieten vollständige Workflows von der Datenvorverarbeitung über das Modelltraining bis hin zur Offline-(Online-)Inferenz. Wir implementieren aktuell führende, auf RNNs, Transformers und Conformern basierende Modelle und stellen detaillierte Trainingsrezepte als Open Source zur Verfügung. fairseq’s maschinelle Übersetzungsmodelle und Sprachmodelle können nahtlos in S2T-Workflows integriert werden, um Mehraufgabenlernverfahren oder Transferlernen zu ermöglichen. Die Dokumentation und Beispiele für fairseq S2T sind unter https://github.com/pytorch/fairseq/tree/master/examples/speech_to_text verfügbar.