HyperAIHyperAI

Command Palette

Search for a command to run...

Eine kontinuierliche Relaxierung des Strahlenssuchalgorithmus für die end-to-end-Ausbildung von neuronalen Sequenzmodellen

Kartik Goyal Graham Neubig Chris Dyer Taylor Berg-Kirkpatrick

Zusammenfassung

Der Strahlensuche-Algorithmus (beam search) ist eine wünschenswerte Wahl für die Dekodierung von neuronalen Sequenzmodellen zur Testzeit, da er potentiell Suchfehler vermeidet, die durch einfachere gierige Methoden (greedy methods) entstehen können. Allerdings berücksichtigen typische Kreuzentropie-Trainingsverfahren für diese Modelle das Verhalten der endgültigen Dekodierungsmethode nicht direkt. Folglich kann bei Modellen, die mit Kreuzentropie trainiert wurden, die Strahlensuch-Dekodierung (beam decoding) manchmal eine geringere Testleistung aufweisen als die gierige Dekodierung (greedy decoding). Um Modelle zu trainieren, die effektiver von der Strahlensuche profitieren können, schlagen wir ein neues Trainingsverfahren vor, das sich auf das endgültige Verlustmaß (z.B. den Hamming-Verlust) konzentriert, das auf dem Output der Strahlensuche evaluiert wird. Obwohl gut definiert, ist dieses "direkte Verlust"ziel selbst unstetig und daher schwer zu optimieren. Daher bilden wir in unserem Ansatz ein subdifferenzierbares Surrogatziel durch Einführung einer neuen kontinuierlichen Approximation des Strahlensuch-Dekodierungsverfahrens. In Experimenten zeigen wir, dass die Optimierung dieses neuen Trainingsziels erheblich bessere Ergebnisse bei zwei Sequenztasks (Named Entity Recognition und CCG Supertagging) liefert im Vergleich sowohl zu Modellen mit Kreuzentropie-Trainierten gierigen Dekodierung als auch zu Modellen mit Kreuzentropie-Trainierten Strahlensuch-Dekodierung als Baseline.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Eine kontinuierliche Relaxierung des Strahlenssuchalgorithmus für die end-to-end-Ausbildung von neuronalen Sequenzmodellen | Paper | HyperAI