Eine kontinuierliche Relaxierung des Strahlenssuchalgorithmus für die end-to-end-Ausbildung von neuronalen Sequenzmodellen

Der Strahlensuche-Algorithmus (beam search) ist eine wünschenswerte Wahl für die Dekodierung von neuronalen Sequenzmodellen zur Testzeit, da er potentiell Suchfehler vermeidet, die durch einfachere gierige Methoden (greedy methods) entstehen können. Allerdings berücksichtigen typische Kreuzentropie-Trainingsverfahren für diese Modelle das Verhalten der endgültigen Dekodierungsmethode nicht direkt. Folglich kann bei Modellen, die mit Kreuzentropie trainiert wurden, die Strahlensuch-Dekodierung (beam decoding) manchmal eine geringere Testleistung aufweisen als die gierige Dekodierung (greedy decoding). Um Modelle zu trainieren, die effektiver von der Strahlensuche profitieren können, schlagen wir ein neues Trainingsverfahren vor, das sich auf das endgültige Verlustmaß (z.B. den Hamming-Verlust) konzentriert, das auf dem Output der Strahlensuche evaluiert wird. Obwohl gut definiert, ist dieses "direkte Verlust"ziel selbst unstetig und daher schwer zu optimieren. Daher bilden wir in unserem Ansatz ein subdifferenzierbares Surrogatziel durch Einführung einer neuen kontinuierlichen Approximation des Strahlensuch-Dekodierungsverfahrens. In Experimenten zeigen wir, dass die Optimierung dieses neuen Trainingsziels erheblich bessere Ergebnisse bei zwei Sequenztasks (Named Entity Recognition und CCG Supertagging) liefert im Vergleich sowohl zu Modellen mit Kreuzentropie-Trainierten gierigen Dekodierung als auch zu Modellen mit Kreuzentropie-Trainierten Strahlensuch-Dekodierung als Baseline.