Schnell, effektiv und selbstüberwacht: Die Transformation von maskeierten Sprachmodellen in universelle lexikalische und satzbezogene Encoder

Vorab trainierte Masked Language Models (MLMs) haben die NLP in den letzten Jahren revolutioniert. Allerdings haben frühere Studien gezeigt, dass MLMs ohne weitere aufgabenbezogene Feinabstimmung (Fine-Tuning) mithilfe annotierter Aufgabendaten für NLI, Satzähnlichkeit oder Paraphrasierungsaufgaben nicht effektiv als universelle lexikalische oder Satzencoder dienen können. In dieser Arbeit demonstrieren wir, dass es möglich ist, MLMs in effektive universelle lexikalische und Satzencoder zu verwandeln, auch ohne zusätzliche Daten und ohne jede Überwachung. Wir schlagen eine extrem einfache, schnelle und effektive Kontrastlernmethode vor, die unter dem Namen Mirror-BERT firmiert. Diese Methode wandelt MLMs (wie z.B. BERT und RoBERTa) in solche Encoder um, ohne zusätzliches externes Wissen, und benötigt dazu nur 20-30 Sekunden. Mirror-BERT basiert auf vollständig identischen oder leicht modifizierten Stringpaaren als positiven (d.h., synonymen) Feinabstimmungsbeispielen und strebt an, ihre Ähnlichkeit während der Identitätsfeinabstimmung zu maximieren. Wir berichten von erheblichen Verbesserungen gegenüber den unveränderten MLMs mit Mirror-BERT sowohl bei lexikalischen als auch bei satzorientierten Aufgaben in verschiedenen Domänen und Sprachen. Besonders auffällig ist, dass unser selbstüberwachte Mirror-BERT-Modell im Standard-Satzsemantikähnlichkeitsaufgabe (STS) sogar die Leistung der in früheren Arbeiten task-optimierten Sentence-BERT-Modelle erreicht. Schließlich untersuchen wir detaillierter die internen Abläufe von MLMs und liefern einige Hinweise darauf, warum dieser einfache Ansatz effektive universelle lexikalische und Satzencoder hervorbringen kann.