ThaiLMCut: Unsupervised Pretraining für die thailändische Wortsegmentierung

Wir stellen ThaiLMCut vor, einen semi-supervised Ansatz zur Wortsegmentierung im Thai, der ein bidirektionales Zeichen-Sprachmodell (LM) nutzt, um nützliches sprachliches Wissen aus unbeschrifteten Daten zu erschließen. Nachdem das Sprachmodell auf umfangreichen unbeschrifteten Korpora trainiert wurde, werden die Gewichte seiner Embedding- und rekurrenten Schichten auf ein überwachtes Wortsegmentierungsmodell übertragen, das diese Gewichte anschließend auf einer Wortsegmentierungsaufgabe feinabstimmt. Unsere experimentellen Ergebnisse zeigen, dass die Anwendung des Sprachmodells stets zu einer Leistungssteigerung führt, insbesondere wenn die Menge an beschrifteten Daten gering ist. In solchen Fällen steigt der F1-Score um bis zu 2,02 %. Selbst auf einem großen beschrifteten Datensatz lässt sich eine geringfügige Verbesserung erzielen. Der Ansatz erwies sich zudem als besonders vorteilhaft für Out-of-Domain-Szenarien, bei denen der F1-Score um bis zu 3,13 % anstieg. Schließlich zeigen wir, dass ThaiLMCut andere Open-Source-Modelle auf dem Standardevaluationsbenchmark InterBEST2009 übertrifft und einen F1-Score von 98,78 % erreicht.