Ein Amharisch-Nachrichtentextklassifizierungs-Datensatz

In der Naturalsprachverarbeitung (NLP) stellt die Textklassifikation eine der zentralen Aufgaben dar, deren Anwendungen in der Sprachanalyse uneingeschränkt sind. Der Mangel an gelabelten Trainingsdaten erschwerte diese Aufgaben besonders in sprachlich unterversorgten Sprachen wie Amharisch. Die Erhebung, Annotation und Aufbereitung solcher Daten zu einem nutzbaren Datensatz könnte junge Forscher:innen, Schulen und Praktiker im Bereich maschinelles Lernen motivieren, bestehende Klassifikationsmodelle in ihrer eigenen Sprache einzusetzen. In diesem kurzen Beitrag präsentieren wir den Amharisch-Textklassifikations-Datensatz, der mehr als 50.000 Nachrichtenartikel umfasst, die in sechs Klassen kategorisiert wurden. Der Datensatz wird zusammen mit einfachen Baseline-Ergebnissen zur Verfügung gestellt, um Forschungsarbeiten und Experimente zu verbesserten Leistungen zu fördern.