HyperAIHyperAI

Command Palette

Search for a command to run...

Klassische strukturierte Verlustfunktionen für Sequenz-zu-Sequenz-Lernen

Sergey Edunov; Myle Ott; Michael Auli; David Grangier; Marc'Aurelio Ranzato

Zusammenfassung

In letzter Zeit wurden zahlreiche Arbeiten zur Schulung von neuronalen Aufmerksamkeitsmodellen auf Sequenzebene durchgeführt, wobei entweder Methoden im Stil des Verstärkungslernens oder die Optimierung des Strahls verwendet wurden. In dieser Arbeit untersuchen wir eine Reihe klassischer Zielfunktionen, die weit verbreitet zur Schulung linearer Modelle für strukturierte Vorhersage eingesetzt werden, und wenden sie auf neuronale Sequenz-zu-Sequenz-Modelle an. Unsere Experimente zeigen, dass diese Verlustfunktionen überraschend gut abschneiden und in einem vergleichbaren Setup leicht besser als die Strahl-Suchoptimierung performieren. Wir berichten außerdem über neue Stand der Technik-Ergebnisse sowohl bei der IWSLT'14 Deutsch-Englisch-Übersetzung als auch bei der abstraktiven Zusammenfassung des Gigaword-Korpus. Bei der größeren WMT'14 Englisch-Französisch-Übersetzaufgabe erreicht die sequenzbasierte Schulung einen BLEU-Wert von 41,5, was dem aktuellen Stand der Technik entspricht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp