Stochastische Transformer-Netzwerke mit linearen Konkurrenz-Einheiten: Anwendung auf End-to-End-SL-Übersetzung

Die Automatisierung der Übersetzung von Gebärdensprache (SLT) stellt eine herausfordernde Anwendung in der realen Welt dar. Trotz ihrer gesellschaftlichen Bedeutung bleibt der Forschungsfortschritt in diesem Bereich jedoch eher bescheiden. Entscheidend ist, dass bestehende Methoden, die eine praktikable Leistung erzielen, die Verfügbarkeit von mühsam zu beschaffenden, als Gloss-Sequenz annotierten Referenzdaten erfordern. In diesem Artikel verringern wir diesen Bedarf, indem wir ein end-to-end-SLT-Modell einführen, das keinen expliziten Einsatz von Glossen erfordert; das Modell benötigt lediglich Text-Referenzdaten. Dies unterscheidet sich deutlich von bestehenden end-to-end-Modellen, die entweder Gloss-Sequenzen als eine Zwischenmodul-Modality erkennen oder als parallele Ausgabeprozesse gemeinsam mit dem SLT-Modell trainieren. Unser Ansatz basiert auf einem Transformer-Netzwerk mit einer neuartigen Schichtstruktur, die folgende Merkmale kombiniert: (i) lokale Winner-Takes-All (LWTA)-Schichten mit stochastischer Gewinner-Auswahl anstelle konventioneller ReLU-Schichten, (ii) stochastische Gewichte, deren Posterior-Verteilungen mittels Variational Inference geschätzt werden, und (iii) eine Gewichtskompressionstechnik im Inferenzzeitraum, die die geschätzte Posterior-Varianz nutzt, um eine massive, fast verlustfreie Kompression zu ermöglichen. Wir zeigen, dass unser Ansatz die derzeit besten veröffentlichten BLEU-4-Werte auf dem PHOENIX 2014T-Benchmark erreichen kann, ohne Glossen zur Modelltrainierung zu verwenden, und dabei einen Speicherbedarf um mehr als 70 % reduziert.