HyperAIHyperAI
vor 2 Monaten

GlotLID: Spracherkennung für ressourcenarme Sprachen

Amir Hossein Kargaran; Ayyoob Imani; François Yvon; Hinrich Schütze
GlotLID: Spracherkennung für ressourcenarme Sprachen
Abstract

Mehrere kürzlich veröffentlichte Arbeiten haben gute Lösungen für die Spracherkennung (Sprachidentifikation, LID) für etwa 300 hoch- und mittelressourcenreiche Sprachen präsentiert. Es gibt jedoch keine LID-Lösung, die (i) eine breite Palette von low-resource-Sprachen abdeckt, (ii) streng evaluiert und zuverlässig ist und (iii) effizient und einfach zu bedienen ist. Hier stellen wir GlotLID-M vor, ein LID-Modell, das die Anforderungen einer breiten Abdeckung, Zuverlässigkeit und Effizienz erfüllt. Es identifiziert 1665 Sprachen, was im Vergleich zu früheren Arbeiten eine erhebliche Erweiterung der Abdeckung darstellt. In unseren Experimenten übertrifft GlotLID-M vier Baseline-Modelle (CLD3, FT176, OpenLID und NLLB), wenn man F1-Score und Falschpositivraten (FPR) ausbalanciert. Wir analysieren die einzigartigen Herausforderungen, die die Sprachidentifikation für low-resource-Sprachen mit sich bringt: fehlerhafte Korpusmetadaten, Verunreinigungen durch hochressourcenreiche Sprachen, Schwierigkeiten bei der Trennung verwandter Sprachen, die Behandlung von Makrosprachen versus Varietäten sowie allgemeine verrauschte Daten. Wir hoffen, dass die Integration von GlotLID-M in Pipelines zur Datensatz-Erstellung die Qualität verbessern und den Zugang zu NLP-Technologien für low-resource-Sprachen und -Kulturen erhöhen wird. Das GlotLID-M-Modell (einschließlich zukünftiger Versionen), der Code und die Liste der Datenquellen sind verfügbar: https://github.com/cisnlp/GlotLID.