Zu Satz-Einbettungen aus vortrainierten Sprachmodellen

Vortrainierte kontextuelle Darstellungen wie BERT haben in der natürlichen Sprachverarbeitung große Erfolge erzielt. Allerdings haben die Satzembeddings aus vortrainierten Sprachmodellen ohne Nachtrainierung gezeigt, dass sie die semantische Bedeutung von Sätzen nur unzureichend erfassen. In diesem Artikel argumentieren wir, dass die semantischen Informationen in den BERT-Embeddings nicht vollständig ausgenutzt werden. Zunächst klären wir theoretisch die Verbindung zwischen dem Masked-Language-Model-Vortrainingsziel und der Aufgabe der semantischen Ähnlichkeit, und analysieren anschließend die BERT-Satzembeddings empirisch. Wir stellen fest, dass BERT stets einen nicht glatten, anisotropen semantischen Raum für Sätze erzeugt, was sich negativ auf die Leistung bei der semantischen Ähnlichkeit auswirkt. Um dieses Problem zu lösen, schlagen wir vor, die anisotrope Verteilung der Satzembeddings durch Normalisierungsflüsse – die mit einem unsupervisierten Ziel gelernt werden – in eine glatte und isotrope Gauss-Verteilung zu transformieren. Experimentelle Ergebnisse zeigen, dass unsere vorgeschlagene BERT-Flow-Methode im Vergleich zu den aktuell besten Satzembeddings bei einer Vielzahl von Aufgaben zur semantischen Textähnlichkeit signifikante Leistungssteigerungen erzielt. Der Quellcode ist unter https://github.com/bohanli/BERT-flow verfügbar.