Erzeugung von Datensätzen mit vortrainierten Sprachmodellen

Um hochwertige Satzembeddings aus vortrainierten Sprachmodellen (PLMs) zu gewinnen, müssen diese entweder mit zusätzlichen Vortrainingszielen ergänzt oder auf großen Mengen an gelabelten Textpaaren fine-tuned werden. Während der letztere Ansatz typischerweise den ersten übertrifft, erfordert er erheblichen menschlichen Aufwand zur Erzeugung ausreichend großer und geeigneter Datensätze. In diesem Paper zeigen wir, wie PLMs genutzt werden können, um hochwertige Satzembeddings zu erzielen, ohne dass gelabelte Daten, Fine-Tuning oder Änderungen am Vortrainingsziel erforderlich sind: Wir nutzen die generativen Fähigkeiten großer und leistungsfähiger PLMs, um vollständige Datensätze mit gelabelten Textpaaren von Grund auf zu generieren, die anschließend zur Fine-Tuning viel kleinerer und effizienterer Modelle verwendet werden. Unser vollständig unsupervisierter Ansatz erreicht auf mehreren Datensätzen zur semantischen Textähnlichkeit bessere Ergebnisse als starke Baselines.