vor 15 Tagen

Neubewertung von mehrsprachigen Lücken aus statistischer Sicht

Vihari Piratla Purvam Jain Darshan Singh Partha Talukdar Trevor Cohn

Abstract

Jedes Wissensstück wird gewöhnlich in einer oder wenigen natürlichen Sprachen im Web oder in großen Korpora ausgedrückt. Große Sprachmodelle (Large Language Models, LLMs) fungieren als Brücke, indem sie Wissen aus einer Quellsprache erwerben und es bei Abfragen in Zielsprachen zugänglich machen. Vorangegangene Forschung hat einen grenzüberschreitenden Sprachunterschied (cross-lingual gap) identifiziert, nämlich eine Abnahme der Genauigkeit, wenn das Wissen in einer Zielsprache abgefragt wird, im Vergleich zur Abfrage in der Quellsprache. Bestehende Arbeiten erklären die Divergenz in den latenten Darstellungen zwischen Quell- und Zielsprachen als Ursache dieses Sprachunterschieds. In dieser Arbeit verfolgen wir einen alternativen Ansatz und vermuten, dass die Varianz der Antworten in der Zielsprache der Hauptgrund für diesen Unterschied ist. Erstmals formalisieren wir den grenzüberschreitenden Sprachunterschied mittels einer Bias-Varianz-Zerlegung. Wir präsentieren umfangreiche experimentelle Ergebnisse, die unsere Formulierung und Hypothese unterstützen. Anschließend stärken wir unsere Hypothese durch mehrere Interventionen zur Modellinferenz, die die Varianz kontrollieren und den grenzüberschreitenden Sprachunterschied verringern. Wir demonstrieren eine einfache Prompt-Anweisung, die die Antwortvarianz reduziert und die Genauigkeit in der Zielsprache bei verschiedenen Modellen um 20 bis 25 Prozent steigert.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Neubewertung von mehrsprachigen Lücken aus statistischer Sicht

Vihari Piratla Purvam Jain Darshan Singh Partha Talukdar Trevor Cohn

Abstract

KI mit KI entwickeln

Hyper Newsletters