HyperAIHyperAI
vor 17 Tagen

Itihasa: Eine großskalige Korpus für die Übersetzung von Sanskrit nach Englisch

Rahul Aralikatte, Miryam de Lhoneux, Anoop Kunchukuttan, Anders Søgaard
Itihasa: Eine großskalige Korpus für die Übersetzung von Sanskrit nach Englisch
Abstract

Diese Arbeit stellt Itihasa vor, einen großskaligen Übersetzungsdatensatz, der 93.000 Paare aus Sanskrit-Shlokas und ihren englischen Übersetzungen enthält. Die Shlokas stammen aus zwei indischen Epen, nämlich der Ramayana und der Mahabharata. Zunächst beschreiben wir die Motivation für die Erstellung eines derartigen Datensatzes und folgen mit einer empirischen Analyse, um dessen Feinheiten aufzuzeigen. Anschließend bewerten wir die Leistung herkömmlicher Übersetzungsmodelle auf diesem Korpus und zeigen, dass selbst state-of-the-art Transformer-Architekturen nur schlecht abschneiden, was die Komplexität des Datensatzes unterstreicht.