17일 전

이티하사: 산스크리트어에서 영어로의 번역을 위한 대규모 코퍼스

Rahul Aralikatte, Miryam de Lhoneux, Anoop Kunchukuttan, Anders Søgaard

초록

이 연구는 93,000개의 संस्कृत어(산스크리트어) 시로카(slokas)와 그에 해당하는 영문 번역 쌍을 포함하는 대규모 번역 데이터셋인 Itihasa를 소개한다. 이 시로카들은 인도의 두 대서사시인 『라마야나』와 『마하바라타』에서 추출되었다. 본 연구에서는 이러한 데이터셋을 구축한 배경과 동기를 설명한 후, 그 데이터셋의 특징을 파악하기 위한 실증적 분석을 수행한다. 이후 표준 번역 모델들이 이 데이터셋에서 어떻게 성능을 발휘하는지 평가하며, 심지어 최첨단 트랜스포머 아키텍처조차도 낮은 성능을 보임을 보여주어, 이 데이터셋의 복잡성을 강조한다.