vor 2 Monaten
Robuste Spracherkennung durch groß angelegte schwache Überwachung
Radford, Alec ; Kim, Jong Wook ; Xu, Tao ; Brockman, Greg ; McLeavey, Christine ; Sutskever, Ilya

Abstract
Wir untersuchen die Fähigkeiten von Sprachverarbeitungssystemen, die einfach dazu trainiert wurden, große Mengen an Transkripten von Audio im Internet vorherzusagen. Wenn diese Systeme auf 680.000 Stunden multilinguistischer und multimodaler Überwachung skaliert werden, verallgemeinern sich die resultierenden Modelle gut auf Standard-Benchmarks und sind oft in einem Zero-Shot-Transfer-Szenario wettbewerbsfähig mit früheren vollständig überwachten Ergebnissen, ohne dass eine Feinabstimmung erforderlich ist. Im Vergleich zu Menschen nähern sich die Modelle ihrer Genauigkeit und Robustheit an. Wir veröffentlichen Modelle und Inferenzcode, um als Grundlage für weitere Arbeiten zur robusten Sprachverarbeitung zu dienen.