HyperAIHyperAI

Command Palette

Search for a command to run...

Poly-Encoders: Transformer-Architekturen und Vortrainingsstrategien für schnelles und genaues Mehrsatz-Bewertung

Samuel Humeau Kurt Shuster Marie-Anne Lachaux Jason Weston

Zusammenfassung

Die Verwendung tiefer vorab trainierter bidirektionaler Transformer hat zu bemerkenswerten Fortschritten in einer Reihe von Anwendungen geführt (Devlin et al., 2018). Für Aufgaben, die paarweise Vergleiche zwischen Sequenzen durchführen und eine gegebene Eingabe mit einem entsprechenden Label abgleichen, sind zwei Ansätze üblich: Cross-Encoder, die vollständige Selbst-Attention über das Paar durchführen, und Bi-Encoder, die das Paar getrennt kodieren. Der erste Ansatz erzielt oft bessere Ergebnisse, ist aber für praktische Anwendungen zu langsam. In dieser Arbeit entwickeln wir eine neue Transformer-Architektur, den Poly-Encoder, der globale anstelle von Token-Level-Selbst-Attention-Funktionen lernt. Wir führen einen detaillierten Vergleich aller drei Ansätze durch, einschließlich der Analyse, welche Vorabtrainings- und Feinjustierungsstrategien am besten funktionieren. Wir zeigen, dass unsere Modelle auf drei bestehenden Aufgaben den aktuellen Stand der Technik erreichen; dass Poly-Encoders schneller als Cross-Encoders und genauer als Bi-Encoders sind; und dass die besten Ergebnisse durch Vorabtraining auf großen Datensätzen ähnlich den nachgelagerten Aufgaben erzielt werden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp