DiffCSE: auf Unterschieden basierendes kontrastives Lernen für Satz-Embeddings

Wir stellen DiffCSE vor, einen unsupervisierten kontrastiven Lernansatz zur Entwicklung von Satz-Embeddings. DiffCSE lernt Satz-Embeddings, die empfindlich gegenüber Unterschieden zwischen dem ursprünglichen Satz und einem bearbeiteten Satz sind, wobei der bearbeitete Satz durch stochastisches Maskieren des ursprünglichen Satzes und anschließendes Sampling aus einem maskierten Sprachmodell generiert wird. Wir zeigen, dass DiffCSE ein Spezialfall der äquivalenz-invarianten kontrastiven Lernmethode (Dangovski et al., 2021) ist, die den klassischen kontrastiven Lernansatz verallgemeinert und Darstellungen lernt, die unempfindlich gegenüber bestimmten Arten von Daten-Augmentierungen sind, jedoch empfindlich gegenüber anderen, „schädlichen“ Arten von Augmentierungen. Unsere Experimente zeigen, dass DiffCSE unter den unsupervisierten Ansätzen zur Satzrepräsentationslernen die derzeit besten Ergebnisse erzielt und unsupervised SimCSE auf Aufgaben zur semantischen Textähnlichkeit um 2,3 absolute Punkte übertrifft.