Trans-Encoder: Unsupervised Sentence-Pair Modellierung durch Selbst- und Gegenseitige-Distillation

In der natürlichen Sprachverarbeitung (NLP) sind zahlreiche Aufgaben mit der paarweisen Vergleichung zweier Sequenzen verbunden (z. B. Satzähnlichkeit und Paraphrasenerkennung). Für Aufgaben mit Satzpaaren werden hauptsächlich zwei Formulierungen verwendet: Bi-Encoder und Cross-Encoder. Bi-Encoder erzeugen feste, dimensionale Satzrepräsentationen und sind rechenzeiteffizient, weisen jedoch typischerweise eine schlechtere Leistung als Cross-Encoder auf. Cross-Encoder können ihre Aufmerksamkeitsköpfe nutzen, um Interaktionen zwischen Sätzen besser auszunutzen und somit eine höhere Leistung zu erzielen, erfordern jedoch eine feinabgestimmte Aufgabenanpassung und sind rechnerisch aufwendiger. In diesem Artikel stellen wir ein vollständig unsupervisioniertes Modell zur Satzrepräsentation vor, das als Trans-Encoder bezeichnet wird und die beiden Lernparadigmen in einem iterativen gemeinsamen Rahmen vereint, um gleichzeitig verbesserte Bi- und Cross-Encoder zu lernen. Konkret wandeln wir auf der Basis eines vortrainierten Sprachmodells (PLM) zunächst das Modell in einen unsupervisionierten Bi-Encoder um und wechseln dann iterativ zwischen den beiden Aufgabenformulierungen – Bi- und Cross-Encoder. In jeder Iteration erzeugt eine Aufgabenformulierung Pseudolabels, die als Lernsignale für die andere Formulierung dienen. Anschließend schlagen wir eine Erweiterung vor, die diesen Selbst-Distillation-Ansatz gleichzeitig auf mehrere PLMs anwendet und die Durchschnittswerte ihrer Pseudolabels für eine gegenseitige Distillation nutzt. Trans-Encoder stellt, soweit uns bekannt ist, den ersten vollständig unsupervisionierten Cross-Encoder dar und gleichzeitig einen Stand der Technik für unsupervisionierte Bi-Encoder im Bereich der Satzähnlichkeit. Beide Formulierungen – Bi- und Cross-Encoder – von Trans-Encoder überflügeln kürzlich vorgeschlagene State-of-the-Art-Modelle für unsupervisionierte Satzrepräsentationen wie Mirror-BERT und SimCSE um bis zu 5 % auf Benchmarks zur Satzähnlichkeit.