HyperAIHyperAI
vor 11 Tagen

Hilft Transliteration der mehrsprachigen Sprachmodellierung?

Ibraheem Muhammad Moosa, Mahmud Elahi Akhter, Ashfia Binte Habib
Hilft Transliteration der mehrsprachigen Sprachmodellierung?
Abstract

Die Vielfalt von Schriftsystemen stellt eine Herausforderung für mehrsprachige Sprachmodelle (Multilingual Language Models, MLLM) dar, da sie die lexikalische Übereinstimmung zwischen eng verwandten Sprachen verringert. Daher könnte die Transliteration eng verwandter Sprachen, die unterschiedliche Schriftsysteme verwenden, auf ein gemeinsames Schriftsystem die Leistung der MLLM bei nachgelagerten Aufgaben verbessern. In diesem Kontext messen wir empirisch den Einfluss der Transliteration auf MLLM. Wir konzentrieren uns speziell auf die indischen Sprachen, die weltweit die größte Schriftvielfalt aufweisen, und evaluieren unsere Modelle anhand der IndicGLUE-Benchmark-Daten. Zur strengen Überprüfung der Signifikanz des Transliterationseffekts führen wir den Mann-Whitney-U-Test durch. Wir stellen fest, dass die Transliteration Sprachen mit geringen Ressourcen stärkt, ohne die Leistung von vergleichsweise ressourcenreicheren Sprachen negativ zu beeinflussen. Zudem messen wir die über-sprachliche Repräsentationsähnlichkeit der Modelle mithilfe der zentrierten Kernel-Ausrichtung (centered kernel alignment) an parallelen Sätzen aus dem FLORES-101-Datensatz. Dabei zeigen sich, dass die durch Transliteration basierenden Modelle für parallele Sätze verschiedener Sprachen ähnlichere Satzrepräsentationen erlernen.

Hilft Transliteration der mehrsprachigen Sprachmodellierung? | Neueste Forschungsarbeiten | HyperAI