HyperAIHyperAI
منذ 17 أيام

إيتيهاسا: مجموعة ضخمة من البيانات لترجمة السنسكريتية إلى الإنجليزية

Rahul Aralikatte, Miryam de Lhoneux, Anoop Kunchukuttan, Anders Søgaard
إيتيهاسا: مجموعة ضخمة من البيانات لترجمة السنسكريتية إلى الإنجليزية
الملخص

يقدّم هذا العمل مجموعة بيانات ترجمة كبيرة الحجم تُسمّى Itihasa، تحتوي على 93,000 زوجًا من الأشغال السنسكريتية وترجماتها الإنجليزية. تم استخراج الأشغال من إحدى الأدبيات الإليتية الهندية، وهما الإبادة (الراماياني) والماهابهاراتا. نبدأ بعرض الدافع وراء إعداد هذه المجموعة، ثم نتبعه بتحليل تجريبي للكشف عن تفاصيلها الدقيقة. وبعد ذلك، نقيّم أداء النماذج القياسية للترجمة على هذه المجموعة، ونُظهر أن حتى أحدث هياكل الشبكات العصبية التحويلية (Transformers) تُظهر أداءً ضعيفًا، مما يُبرز التعقيد الكبير المتأصّل في هذه المجموعة.