Wissensdistillierung auf Sequenzebene

Neuronale Maschinelle Übersetzung (NMT) bietet eine neuartige Alternative zur Übersetzung, die potenziell einfacher als statistische Ansätze ist. Um jedoch wettbewerbsfähige Leistungen zu erzielen, müssen NMT-Modelle außergewöhnlich groß sein. In dieser Arbeit untersuchen wir die Anwendung von Wissensdistillationsansätzen (Bucila et al., 2006; Hinton et al., 2015), die sich bei der Reduzierung der Größe neuronaler Modelle in anderen Bereichen als erfolgreich erwiesen haben, auf das Problem der NMT. Wir zeigen, dass die standardmäßige Wissensdistillation bei der Wort-Level-Vorhersage für NMT effektiv sein kann und zwei neue sequenzbasierte Versionen der Wissensdistillation einführen, die die Leistung weiter verbessern und überraschenderweise das Bedürfnis nach einem Strahlensuche-Algorithmus (Beam Search) zu eliminieren scheinen (selbst wenn sie auf dem ursprünglichen Lehrermodell angewendet werden). Unser bestes Schülersmodell läuft zehnmal schneller als dessen state-of-the-art-Lehrermodell mit nur geringem Leistungsverlust. Es ist auch erheblich besser als ein Basismodell, das ohne Wissensdistillation trainiert wurde: um 4,2/1,7 BLEU-Punkte bei gieriger Dekodierung/Strahlensuche. Die Anwendung von Gewichtsbeschnitt (Weight Pruning) auf Basis der Wissensdistillation führt zu einem Schülersmodell, das 13-mal weniger Parameter als das ursprüngliche Lehrermodell hat, wobei der BLEU-Score um 0,4 Punkte abnimmt.