HyperAIHyperAI

Command Palette

Search for a command to run...

Erzeugung von Datensätzen mit vortrainierten Sprachmodellen

Timo Schick Hinrich Schütze

Zusammenfassung

Um hochwertige Satzembeddings aus vortrainierten Sprachmodellen (PLMs) zu gewinnen, müssen diese entweder mit zusätzlichen Vortrainingszielen ergänzt oder auf großen Mengen an gelabelten Textpaaren fine-tuned werden. Während der letztere Ansatz typischerweise den ersten übertrifft, erfordert er erheblichen menschlichen Aufwand zur Erzeugung ausreichend großer und geeigneter Datensätze. In diesem Paper zeigen wir, wie PLMs genutzt werden können, um hochwertige Satzembeddings zu erzielen, ohne dass gelabelte Daten, Fine-Tuning oder Änderungen am Vortrainingsziel erforderlich sind: Wir nutzen die generativen Fähigkeiten großer und leistungsfähiger PLMs, um vollständige Datensätze mit gelabelten Textpaaren von Grund auf zu generieren, die anschließend zur Fine-Tuning viel kleinerer und effizienterer Modelle verwendet werden. Unser vollständig unsupervisierter Ansatz erreicht auf mehreren Datensätzen zur semantischen Textähnlichkeit bessere Ergebnisse als starke Baselines.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp