vor 11 Tagen

SimCSE: Einfache kontrastive Lernmethode für Satz-Embeddings

Tianyu Gao, Xingcheng Yao, Danqi Chen

Abstract

Diese Arbeit präsentiert SimCSE, einen einfachen contrastiven Lernansatz, der die Stand der Technik bei Satz-Embeddings erheblich voranbringt. Zunächst beschreiben wir einen unsupervisierten Ansatz, bei dem ein Eingabesatz im Rahmen eines contrastiven Zielfunktionals sich selbst vorhersagen soll, wobei lediglich standardmäßiger Dropout als Rauschquelle verwendet wird. Diese einfache Methode zeigt überraschend gute Ergebnisse und erreicht eine Leistung, die mit früheren supervisierten Ansätzen vergleichbar ist. Wir stellen fest, dass Dropout als minimale Datenverstärkung fungiert, und deren Entfernung zu einer Darstellungskollaps führt. Anschließend schlagen wir einen supervisierten Ansatz vor, der annotierte Paare aus natürlichsprachlichen Inferenzdatensätzen in unseren contrastiven Lernrahmen integriert, indem „Implikations“-Paare als positive Beispiele und „Widerspruchs“-Paare als schwierige Negative verwendet werden. Wir evaluieren SimCSE auf Standardaufgaben zur semantischen Textähnlichkeit (STS), und unsere unsupervisierten und supervisierten Modelle auf Basis von BERT base erreichen jeweils durchschnittlich 76,3 % und 81,6 % Korrelation nach Spearman – eine Verbesserung um 4,2 % bzw. 2,2 % gegenüber den vorherigen besten Ergebnissen. Zudem zeigen wir – sowohl theoretisch als auch empirisch –, dass das contrastive Lernziel die anisotrope Struktur der vortrainierten Embeddings regularisiert und sie gleichmäßiger macht, und dass es positive Paare besser ausrichtet, wenn supervisierte Signale verfügbar sind.