HyperAIHyperAI

Command Palette

Search for a command to run...

ThaiLMCut: Unsupervised Pretraining für die thailändische Wortsegmentierung

Hinrich Sch\utze Michael Matuschek Liliana Mamani Sanchez Ivan Bilan Suteera Seeha Johannes Huber

Zusammenfassung

Wir stellen ThaiLMCut vor, einen semi-supervised Ansatz zur Wortsegmentierung im Thai, der ein bidirektionales Zeichen-Sprachmodell (LM) nutzt, um nützliches sprachliches Wissen aus unbeschrifteten Daten zu erschließen. Nachdem das Sprachmodell auf umfangreichen unbeschrifteten Korpora trainiert wurde, werden die Gewichte seiner Embedding- und rekurrenten Schichten auf ein überwachtes Wortsegmentierungsmodell übertragen, das diese Gewichte anschließend auf einer Wortsegmentierungsaufgabe feinabstimmt. Unsere experimentellen Ergebnisse zeigen, dass die Anwendung des Sprachmodells stets zu einer Leistungssteigerung führt, insbesondere wenn die Menge an beschrifteten Daten gering ist. In solchen Fällen steigt der F1-Score um bis zu 2,02 %. Selbst auf einem großen beschrifteten Datensatz lässt sich eine geringfügige Verbesserung erzielen. Der Ansatz erwies sich zudem als besonders vorteilhaft für Out-of-Domain-Szenarien, bei denen der F1-Score um bis zu 3,13 % anstieg. Schließlich zeigen wir, dass ThaiLMCut andere Open-Source-Modelle auf dem Standardevaluationsbenchmark InterBEST2009 übertrifft und einen F1-Score von 98,78 % erreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp