UniDrop: Eine einfache aber effektive Technik zur Verbesserung von Transformer ohne zusätzliche Kosten

Die Transformer-Architektur hat bei einer Vielzahl von Aufgaben im Bereich der natürlichen Sprachverarbeitung erheblichen Erfolg erzielt. Die starke Überparametrisierung der Transformer-Modelle hat zahlreiche Forschungsarbeiten motiviert, die Überanpassung zu reduzieren, um eine verbesserte Leistung zu erzielen. Durch einige Untersuchungen stellen wir fest, dass einfache Techniken wie Dropout bei sorgfältiger Gestaltung die Modellleistung erheblich steigern können. Daher integrieren wir in diesem Paper verschiedene Dropout-Techniken in den Trainingsprozess von Transformer-Modellen. Konkret schlagen wir einen Ansatz namens UniDrop vor, der drei unterschiedliche Dropout-Techniken von fein- bis grobgranular vereint: Feature-Dropout, Struktur-Dropout und Daten-Dropout. Theoretisch zeigen wir, dass diese drei Dropout-Techniken aus regulärisierender Sicht unterschiedliche Funktionen erfüllen. Empirisch führen wir Experimente sowohl auf Benchmark-Datensätzen für neuronale Maschinenübersetzung als auch für Text-Klassifikation durch. Umfangreiche Ergebnisse zeigen, dass Transformer-Modelle mit UniDrop eine Verbesserung um etwa 1,5 BLEU auf den IWSLT14-Übersetzungs-Aufgaben erreichen, sowie eine höhere Genauigkeit bei der Klassifikation, selbst wenn ein starkes vortrainiertes Modell wie RoBERTa als Backbone verwendet wird.