HyperAIHyperAI
vor 18 Tagen

ANTILLES: Ein offenes französisches, sprachlich angereichertes Korpus zur Wortartenannotation

{Richard Dufour, Yanis Labrak}
ANTILLES: Ein offenes französisches, sprachlich angereichertes Korpus zur Wortartenannotation
Abstract

Part-of-Speech-(POS)-Tagging ist eine klassische Aufgabe im Bereich des Natural Language Processing (NLP). Obwohl zahlreiche Tools und Korpora, insbesondere für die am häufigsten gesprochenen Sprachen, vorgeschlagen wurden, leiden diese oft unter Einschränkungen hinsichtlich ihrer Lizenzbedingungen, der Größe ihres Tagsets oder sogar veralteten Ansätzen, die nicht mehr dem Stand der Technik entsprechen. In diesem Artikel stellen wir ANTILLES vor, eine erweiterte Version eines bestehenden französischen Korpus (UD French-GSD), die eine originelle Menge von Tags enthält, die mithilfe morphologischer Merkmale (Geschlecht, Numerus, Tempus usw.) ermittelt wurden. Diese erweiterte Version umfasst 65 Tags im Gegensatz zu den 16 Tags in der ursprünglichen Version. Zudem haben wir mehrere POS-Tools für Französisch auf Basis dieses Korpus implementiert, wobei wir die neuesten Fortschritte des Standes der Technik in diesem Bereich integriert haben. Das Korpus sowie die POS-Tagging-Tools sind vollständig offen und frei zugänglich.