13일 전

기계 번역 사전 훈련을 통한 데이터-텍스트 생성 — 체코어 사례 연구

Mihir Kale, Scott Roy
기계 번역 사전 훈련을 통한 데이터-텍스트 생성 — 체코어 사례 연구
초록

구조화된 데이터로부터 텍스트를 생성하기 위한 딥러닝 기법에 관한 연구는 매우 풍부하지만, 거의 모든 연구가 순수하게 영어에 초점을 맞추고 있다. 본 논문에서는 비영어 언어에서 데이터-텍스트 생성에 대해 기계 번역 기반 사전 훈련의 효과성을 탐구한다. 구조화된 데이터는 일반적으로 영어로 표현되므로, 다른 언어로 텍스트를 생성하는 과정은 번역, 음차(전문어화), 복사 등의 요소를 포함하게 되며, 이러한 요소들은 이미 신경 기계 번역 시스템에 내재되어 있다. 또한 데이터-텍스트 코퍼스는 일반적으로 규모가 작기 때문에, 사전 훈련을 통해 이 작업은 크게 혜택을 볼 수 있다. 체코어(형태론적으로 복잡한 언어)를 대상으로 한 실험을 통해, 사전 훈련을 통해 자동 평가 지표와 인간 평가 모두에서 유의미하게 향상된 성능을 갖춘 엔드투엔드 모델을 훈련할 수 있음을 확인했다. 또한 본 방법이 낮은 데이터 환경에서의 성능 향상 및 예측 불가능한 슬롯 값에 대한 강건성과 같은 여러 바람직한 특성을 갖는다는 점도 입증하였다.

기계 번역 사전 훈련을 통한 데이터-텍스트 생성 — 체코어 사례 연구 | 최신 연구 논문 | HyperAI초신경