vor 17 Tagen
Itihasa: Eine großskalige Korpus für die Übersetzung von Sanskrit nach Englisch
Rahul Aralikatte, Miryam de Lhoneux, Anoop Kunchukuttan, Anders Søgaard

Abstract
Diese Arbeit stellt Itihasa vor, einen großskaligen Übersetzungsdatensatz, der 93.000 Paare aus Sanskrit-Shlokas und ihren englischen Übersetzungen enthält. Die Shlokas stammen aus zwei indischen Epen, nämlich der Ramayana und der Mahabharata. Zunächst beschreiben wir die Motivation für die Erstellung eines derartigen Datensatzes und folgen mit einer empirischen Analyse, um dessen Feinheiten aufzuzeigen. Anschließend bewerten wir die Leistung herkömmlicher Übersetzungsmodelle auf diesem Korpus und zeigen, dass selbst state-of-the-art Transformer-Architekturen nur schlecht abschneiden, was die Komplexität des Datensatzes unterstreicht.