HyperAIHyperAI
vor 2 Monaten

Poly-Encoders: Transformer-Architekturen und Vortrainingsstrategien für schnelles und genaues Mehrsatz-Bewertung

Samuel Humeau; Kurt Shuster; Marie-Anne Lachaux; Jason Weston
Poly-Encoders: Transformer-Architekturen und Vortrainingsstrategien für schnelles und genaues Mehrsatz-Bewertung
Abstract

Die Verwendung tiefer vorab trainierter bidirektionaler Transformer hat zu bemerkenswerten Fortschritten in einer Reihe von Anwendungen geführt (Devlin et al., 2018). Für Aufgaben, die paarweise Vergleiche zwischen Sequenzen durchführen und eine gegebene Eingabe mit einem entsprechenden Label abgleichen, sind zwei Ansätze üblich: Cross-Encoder, die vollständige Selbst-Attention über das Paar durchführen, und Bi-Encoder, die das Paar getrennt kodieren. Der erste Ansatz erzielt oft bessere Ergebnisse, ist aber für praktische Anwendungen zu langsam. In dieser Arbeit entwickeln wir eine neue Transformer-Architektur, den Poly-Encoder, der globale anstelle von Token-Level-Selbst-Attention-Funktionen lernt. Wir führen einen detaillierten Vergleich aller drei Ansätze durch, einschließlich der Analyse, welche Vorabtrainings- und Feinjustierungsstrategien am besten funktionieren. Wir zeigen, dass unsere Modelle auf drei bestehenden Aufgaben den aktuellen Stand der Technik erreichen; dass Poly-Encoders schneller als Cross-Encoders und genauer als Bi-Encoders sind; und dass die besten Ergebnisse durch Vorabtraining auf großen Datensätzen ähnlich den nachgelagerten Aufgaben erzielt werden.