HyperAIHyperAI

Command Palette

Search for a command to run...

Hilft Transliteration der mehrsprachigen Sprachmodellierung?

Ibraheem Muhammad Moosa Mahmud Elahi Akhter Ashfia Binte Habib

Zusammenfassung

Die Vielfalt von Schriftsystemen stellt eine Herausforderung für mehrsprachige Sprachmodelle (Multilingual Language Models, MLLM) dar, da sie die lexikalische Übereinstimmung zwischen eng verwandten Sprachen verringert. Daher könnte die Transliteration eng verwandter Sprachen, die unterschiedliche Schriftsysteme verwenden, auf ein gemeinsames Schriftsystem die Leistung der MLLM bei nachgelagerten Aufgaben verbessern. In diesem Kontext messen wir empirisch den Einfluss der Transliteration auf MLLM. Wir konzentrieren uns speziell auf die indischen Sprachen, die weltweit die größte Schriftvielfalt aufweisen, und evaluieren unsere Modelle anhand der IndicGLUE-Benchmark-Daten. Zur strengen Überprüfung der Signifikanz des Transliterationseffekts führen wir den Mann-Whitney-U-Test durch. Wir stellen fest, dass die Transliteration Sprachen mit geringen Ressourcen stärkt, ohne die Leistung von vergleichsweise ressourcenreicheren Sprachen negativ zu beeinflussen. Zudem messen wir die über-sprachliche Repräsentationsähnlichkeit der Modelle mithilfe der zentrierten Kernel-Ausrichtung (centered kernel alignment) an parallelen Sätzen aus dem FLORES-101-Datensatz. Dabei zeigen sich, dass die durch Transliteration basierenden Modelle für parallele Sätze verschiedener Sprachen ähnlichere Satzrepräsentationen erlernen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp