HyperAIHyperAI
vor 17 Tagen

Neuronales Modellieren für benannte Entitäten und Morphologie (NEMO^2)

Dan Bareket, Reut Tsarfaty
Neuronales Modellieren für benannte Entitäten und Morphologie (NEMO^2)
Abstract

Die Erkennung benannter Entitäten (Named Entity Recognition, NER) ist eine grundlegende Aufgabe im Bereich der natürlichen Sprachverarbeitung (NLP), die üblicherweise als Klassifizierung über eine Folge von Tokens formuliert wird. Morphologisch reiche Sprachen (Morphologically-Rich Languages, MRLs) stellen eine Herausforderung für diese grundlegende Formulierung dar, da die Grenzen benannter Entitäten nicht notwendigerweise mit den Token-Grenzen übereinstimmen, sondern vielmehr morphologischen Grenzen folgen. Um die NER in MRLs zu bewältigen, müssen daher zwei grundlegende Fragen beantwortet werden: Welche sind die grundlegenden Einheiten, die annotiert werden sollen, und wie können diese Einheiten in realistischen Szenarien erkannt und klassifiziert werden, insbesondere dann, wenn keine goldene Morphologie zur Verfügung steht? Wir untersuchen diese Fragen empirisch an einem neu entwickelten NER-Benchmark, der parallele Annotationen auf Token- und Morphem-Ebene für das Hebräische, eine morphologisch reiche und mehrdeutige Sprache, enthält. Unsere Ergebnisse zeigen, dass die explizite Modellierung morphologischer Grenzen zu einer verbesserten NER-Leistung führt. Zudem erweist sich eine neuartige hybride Architektur, bei der die NER vor der morphologischen Dekomposition erfolgt und diese präzisiert, deutlich als überlegen gegenüber dem herkömmlichen Pipeline-Ansatz, bei dem die morphologische Dekomposition strikt der NER vorausgeht. Diese hybride Methode setzt eine neue Benchmark für sowohl die NER-Aufgabe im Hebräischen als auch die Aufgabe der morphologischen Dekomposition im Hebräischen.

Neuronales Modellieren für benannte Entitäten und Morphologie (NEMO^2) | Neueste Forschungsarbeiten | HyperAI