Mehr Embeddings, bessere Sequence Labeler?

Neuere Arbeiten schlagen eine Familie kontextueller Embeddings vor, die die Genauigkeit von Sequenzlabelern gegenüber nicht-kontextuellen Embeddings erheblich verbessert. Es gibt jedoch keine eindeutige Aussage darüber, ob sich durch die Kombination verschiedener Embedding-Typen in unterschiedlichen Szenarien bessere Sequenzlabeler entwickeln lassen. In diesem Paper führen wir umfangreiche Experimente an drei Aufgaben über 18 Datensätze und acht Sprachen durch, um die Genauigkeit der Sequenzlabelung bei verschiedenen Kombinationen von Embeddings zu untersuchen, und ziehen drei Beobachtungen: (1) Die Kombination weiterer Embedding-Varianten führt in ressourcenreichen und cross-domain-Szenarien sowie unter bestimmten Bedingungen in ressourcenschwachen Szenarien zu einer höheren Genauigkeit; (2) Die Kombination zusätzlicher kontextueller Subword-Embeddings mit kontextuellen Zeichen-Embeddings verschlechtert die Genauigkeit in extrem ressourcenschwachen Szenarien; (3) Basierend auf der Beobachtung (1) führt die Kombination weiterer ähnlicher kontextueller Embeddings nicht zu weiteren Verbesserungen. Wir hoffen, dass diese Erkenntnisse dazu beitragen, stärkere Sequenzlabeler in verschiedenen Szenarien zu entwickeln.