HyperAIHyperAI

Command Palette

Search for a command to run...

Ähnlichkeitsmaße zur Auswahl von Vortrainingsdaten für NER

Xiang Dai Sarvnaz Karimi Ben Hachey Cecile Paris

Zusammenfassung

Wortvektoren und Sprachmodelle (LMs), die auf großen Mengen an unannotierten Daten vorgeschult wurden, können verschiedene Aufgaben der Natürlichen Sprachverarbeitung (NLP) erheblich verbessern. Allerdings wird das Maß und der Einfluss der Ähnlichkeit zwischen den Vorschulungsdaten und den Zielaufgabendaten dem Intuitiven überlassen. Wir schlagen drei kosteneffiziente Maße vor, um verschiedene Aspekte der Ähnlichkeit zwischen Quellvorschulungs- und Zielaufgabendaten zu quantifizieren. Wir zeigen, dass diese Maße gute Prädiktoren für die Nützlichkeit vorgeschulter Modelle bei der Namensentitätserkennung (NER) in 30 Datensätzenpaaren sind. Die Ergebnisse deuten zudem darauf hin, dass vorgeschulte LMs effektiver und vorhersagbarer sind als vorgeschulte Wortvektoren, wobei letztere besser sind, wenn die Vorschulungsdaten unähnlich sind.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp