Domänenanpassung von thailändischen Wortsegmentierungsmodellen mittels gestapelter Ensemble-Methoden
{Sarana Nutanong Ekapol Chuangsuwanich Raheem Sarwar Wannaphong Phatthiyaphaibun Peerat Limkonchotiwat}

Abstract
Wie viele Aufgaben im Bereich Natural Language Processing ist auch die Wortsegmentierung im Thai sprachabhängig. Forscher haben sich bisher auf Transfer-Learning verlassen, um ein bestehendes Modell an einen neuen Domänenbereich anzupassen. Dieser Ansatz ist jedoch nicht anwendbar in Fällen, in denen man lediglich auf die Eingabe- und Ausgabeschichten der Modelle zugreifen kann, auch bekannt als „Black Boxes“. Wir schlagen eine Filter-und-Verfeinerungs-Lösung basierend auf dem Paradigma des stacked-ensemble Learning vor, um diese Einschränkung bei Black-Box-Modellen zu überwinden. Wir führten umfangreiche experimentelle Studien durch, in denen unsere Methode mit state-of-the-art-Modellen und Transfer-Learning verglichen wurde. Die experimentellen Ergebnisse zeigen, dass unsere vorgeschlagene Lösung eine wirksame Methode zur Domänenanpassung darstellt und eine vergleichbare Leistung wie der Transfer-Learning-Ansatz erreicht.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| thai-word-segmentation-on-ws160 | Stacked Ensemble (CRF) | F1-score: 0.952 |
| thai-word-tokenization-on-best-2010 | Stacked Ensemble (CRF) | F1-Score: 0.9812 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.