Domänenanpassung von thailändischen Wortsegmentierungsmodellen mittels gestapelter Ensemble-Methoden

Wie viele Aufgaben im Bereich Natural Language Processing ist auch die Wortsegmentierung im Thai sprachabhängig. Forscher haben sich bisher auf Transfer-Learning verlassen, um ein bestehendes Modell an einen neuen Domänenbereich anzupassen. Dieser Ansatz ist jedoch nicht anwendbar in Fällen, in denen man lediglich auf die Eingabe- und Ausgabeschichten der Modelle zugreifen kann, auch bekannt als „Black Boxes“. Wir schlagen eine Filter-und-Verfeinerungs-Lösung basierend auf dem Paradigma des stacked-ensemble Learning vor, um diese Einschränkung bei Black-Box-Modellen zu überwinden. Wir führten umfangreiche experimentelle Studien durch, in denen unsere Methode mit state-of-the-art-Modellen und Transfer-Learning verglichen wurde. Die experimentellen Ergebnisse zeigen, dass unsere vorgeschlagene Lösung eine wirksame Methode zur Domänenanpassung darstellt und eine vergleichbare Leistung wie der Transfer-Learning-Ansatz erreicht.