HyperAI

Abstract

Wir stellen ThaiLMCut vor, einen semi-supervised Ansatz zur Wortsegmentierung im Thai, der ein bidirektionales Zeichen-Sprachmodell (LM) nutzt, um nützliches sprachliches Wissen aus unbeschrifteten Daten zu erschließen. Nachdem das Sprachmodell auf umfangreichen unbeschrifteten Korpora trainiert wurde, werden die Gewichte seiner Embedding- und rekurrenten Schichten auf ein überwachtes Wortsegmentierungsmodell übertragen, das diese Gewichte anschließend auf einer Wortsegmentierungsaufgabe feinabstimmt. Unsere experimentellen Ergebnisse zeigen, dass die Anwendung des Sprachmodells stets zu einer Leistungssteigerung führt, insbesondere wenn die Menge an beschrifteten Daten gering ist. In solchen Fällen steigt der F1-Score um bis zu 2,02 %. Selbst auf einem großen beschrifteten Datensatz lässt sich eine geringfügige Verbesserung erzielen. Der Ansatz erwies sich zudem als besonders vorteilhaft für Out-of-Domain-Szenarien, bei denen der F1-Score um bis zu 3,13 % anstieg. Schließlich zeigen wir, dass ThaiLMCut andere Open-Source-Modelle auf dem Standardevaluationsbenchmark InterBEST2009 übertrifft und einen F1-Score von 98,78 % erreicht.

Benchmarks

Benchmark	Methodik	Metriken
thai-word-tokenization-on-best-2010	ThaiLMCut	F1-Score: 0.9878

ThaiLMCut: Unsupervised Pretraining für die thailändische Wortsegmentierung

{Hinrich Sch{\u}tze Michael Matuschek Liliana Mamani Sanchez Ivan Bilan Suteera Seeha Johannes Huber}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters

Command Palette

ThaiLMCut: Unsupervised Pretraining für die thailändische Wortsegmentierung

{Hinrich Sch{\u}tze Michael Matuschek Liliana Mamani Sanchez Ivan Bilan Suteera Seeha Johannes Huber}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters