11일 전
XF2T: 저자원 언어를 위한 다국어 사실-텍스트 생성
Shivprasad Sagare, Tushar Abhishek, Bhavyajeet Singh, Anubhav Sharma, Manish Gupta, Vasudeva Varma

초록
다양한 비즈니스 시나리오에서는 구조화된 입력 데이터에서 자동으로 설명적인 인간이 읽을 수 있는 텍스트를 생성하는 것이 요구된다. 따라서 축구 리포트, 날씨 및 금융 리포트, 의료 리포트, 인물 전기 등 다양한 후행 작업을 위한 사실-텍스트 생성 시스템이 개발되어 왔다. 그러나 기존의 사실-텍스트(F2T) 생성 연구는 관련 데이터셋의 풍부한 가용성으로 인해 주로 영어에 집중되어 왔다. 최근에야 다국어 간 사실-텍스트(XF2T) 생성 문제와 함께 8개 언어를 지원하는 데이터셋인 XALIGN이 제안되었다. 그러나 실제 XF2T 생성 문제에 대한 철저한 연구는 아직 이루어지지 않았다. 본 연구에서는 펀자브어, 말라얄람어, 아사무어, 오리야어 등 4개 언어에 대한 추가적인 어노테이션 데이터를 XALIGN 데이터셋에 확장하여, XALIGNV2라는 다국어 데이터셋을 구축하였다. 이를 바탕으로 기존의 주요 트랜스포머 기반 텍스트 생성 모델들을 활용해 광범위한 실험을 수행하였다. 또한, 다양한 텍스트 생성 전략—다양한 사전 훈련 방식, 사실 인지 임베딩, 구조 인지 입력 인코딩—의 성능을 탐구하였다. 광범위한 실험 결과, 사실 인지 임베딩과 구조 인지 입력 인코딩을 활용한 다국어 mT5 모델이 12개 언어 전체에서 평균적으로 최고의 성능을 보였다. 본 연구에서 제시하는 코드, 데이터셋 및 모델은 모두 공개하여, 이 중요한 분야의 향후 연구 발전에 기여하고자 한다.