HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

ThaiLMCut: Unsupervised Pretraining für die thailändische Wortsegmentierung

{Hinrich Sch{\u}tze Michael Matuschek Liliana Mamani Sanchez Ivan Bilan Suteera Seeha Johannes Huber}

ThaiLMCut: Unsupervised Pretraining für die thailändische Wortsegmentierung

Abstract

Wir stellen ThaiLMCut vor, einen semi-supervised Ansatz zur Wortsegmentierung im Thai, der ein bidirektionales Zeichen-Sprachmodell (LM) nutzt, um nützliches sprachliches Wissen aus unbeschrifteten Daten zu erschließen. Nachdem das Sprachmodell auf umfangreichen unbeschrifteten Korpora trainiert wurde, werden die Gewichte seiner Embedding- und rekurrenten Schichten auf ein überwachtes Wortsegmentierungsmodell übertragen, das diese Gewichte anschließend auf einer Wortsegmentierungsaufgabe feinabstimmt. Unsere experimentellen Ergebnisse zeigen, dass die Anwendung des Sprachmodells stets zu einer Leistungssteigerung führt, insbesondere wenn die Menge an beschrifteten Daten gering ist. In solchen Fällen steigt der F1-Score um bis zu 2,02 %. Selbst auf einem großen beschrifteten Datensatz lässt sich eine geringfügige Verbesserung erzielen. Der Ansatz erwies sich zudem als besonders vorteilhaft für Out-of-Domain-Szenarien, bei denen der F1-Score um bis zu 3,13 % anstieg. Schließlich zeigen wir, dass ThaiLMCut andere Open-Source-Modelle auf dem Standardevaluationsbenchmark InterBEST2009 übertrifft und einen F1-Score von 98,78 % erreicht.

Benchmarks

BenchmarkMethodikMetriken
thai-word-tokenization-on-best-2010ThaiLMCut
F1-Score: 0.9878

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
ThaiLMCut: Unsupervised Pretraining für die thailändische Wortsegmentierung | Forschungsarbeiten | HyperAI