Neubewertung von Störungen in Encoder-Decoder-Architekturen für schnelles Training

Wir verwenden Perturbationen häufig zur Regularisierung neuronaler Modelle. Bei neuronalen Encoder-Decoder-Architekturen haben frühere Studien die Scheduled Sampling (Bengio et al., 2015) und adversarische Perturbationen (Sato et al., 2019) als Perturbationen eingesetzt, wobei diese Ansätze jedoch erhebliche Rechenzeit erfordern. Daher untersucht diese Studie, ob diese Methoden für die Trainingszeit ausreichend effizient sind. Wir vergleichen mehrere Perturbationsansätze im Kontext von Sequenz-zu-Sequenz-Aufgaben hinsichtlich der Rechenzeit. Experimentelle Ergebnisse zeigen, dass einfache Techniken wie Word Dropout (Gal und Ghahramani, 2016) und zufällige Ersetzung von Eingabetoken vergleichbare (oder sogar bessere) Ergebnisse erzielen als kürzlich vorgeschlagene Perturbationen, wobei diese einfachen Methoden deutlich schneller sind. Unser Code ist öffentlich unter https://github.com/takase/rethink_perturbations verfügbar.