Ähnlichkeitsmaße zur Auswahl von Vortrainingsdaten für NER

Wortvektoren und Sprachmodelle (LMs), die auf großen Mengen an unannotierten Daten vorgeschult wurden, können verschiedene Aufgaben der Natürlichen Sprachverarbeitung (NLP) erheblich verbessern. Allerdings wird das Maß und der Einfluss der Ähnlichkeit zwischen den Vorschulungsdaten und den Zielaufgabendaten dem Intuitiven überlassen. Wir schlagen drei kosteneffiziente Maße vor, um verschiedene Aspekte der Ähnlichkeit zwischen Quellvorschulungs- und Zielaufgabendaten zu quantifizieren. Wir zeigen, dass diese Maße gute Prädiktoren für die Nützlichkeit vorgeschulter Modelle bei der Namensentitätserkennung (NER) in 30 Datensätzenpaaren sind. Die Ergebnisse deuten zudem darauf hin, dass vorgeschulte LMs effektiver und vorhersagbarer sind als vorgeschulte Wortvektoren, wobei letztere besser sind, wenn die Vorschulungsdaten unähnlich sind.