11일 전
XAlign: 저자원 언어를 위한 다국어 사실-텍스트 정렬 및 생성
Tushar Abhishek, Shivprasad Sagare, Bhavyajeet Singh, Anubhav Sharma, Manish Gupta, Vasudeva Varma

초록
다수의 중요한 시나리오(예: 영어 인포박스를 기반으로 위키백과 텍스트 생성)는 영어 사실 트리플(fact triples)로부터 저자원(LR) 언어로 설명 텍스트를 자동 생성하는 것이 필요하다. 기존 연구는 주로 영어 사실 → 텍스트(F2T) 생성에 집중되어 왔다. 우리의 지식에 따르면, 저자원 언어에 대한 다국어 간 정렬 또는 생성에 관한 이전 시도는 없었다. 효과적인 다국어 사실 → 텍스트(XF2T) 시스템을 구축하기 위해서는 영어 구조화된 사실과 저자원 언어 문장 간의 정렬이 필요하다. 우리는 다국어 정렬을 위한 두 가지 비지도(unsupervised) 방법을 제안한다. 또한, 8개 언어에 걸쳐 0.45M 개의 페어를 포함하고 있으며, 그 중 5,402개는 수작업으로 주석이 달린 XALIGN라는 XF2T 데이터셋을 기여한다. 더불어 XALIGN 데이터셋을 기반으로 강력한 베이스라인 XF2T 생성 모델을 훈련시켰다.