언어를 남기지 않기: 인간 중심 기계 번역의 규모 확대

글로벌 차원에서 언어 장벽을 극복하려는 목표에 힘입어 기계 번역은 오늘날 인공지능 연구의 핵심 분야로 자리 잡았다. 그러나 이러한 노력은 대부분의 저자원 언어를 소외시키는 한정된 언어 집단에 집중되어 왔다. 200개 언어의 장벽을 돌파하면서도 안전하고 고품질의 번역 결과를 보장하며 윤리적 고려사항도 함께 수반하는 데에는 어떤 조건이 필요한가? 본 연구인 'No Language Left Behind(NLLB)'에서는 먼저 저자원 언어 사용자들과의 탐색적 인터뷰를 통해 저자원 언어 번역 지원의 필요성을 정의하고, 그에 기반하여 저자원 언어와 고자원 언어 간의 성능 격차를 좁히는 데 초점을 맞춘 데이터셋과 모델을 개발했다. 구체적으로, 희소하게 게이트된 전문가 혼합(Mixture of Experts) 기반의 조건부 계산 모델을 개발하였으며, 이는 저자원 언어에 특화된 혁신적이고 효과적인 데이터 마이닝 기법을 통해 수집된 데이터로 학습되었다. 또한 수천 개의 번역 작업을 동시에 학습하는 과정에서 과적합을 방지하기 위해 아키텍처 및 학습 방법에 다수의 개선 사항을 제안하였다. 특히, 인간이 번역한 기준 데이터셋인 Flores-200을 활용하여 4만 개 이상의 서로 다른 번역 방향에 대해 성능을 평가하였으며, Flores-200에 포함된 모든 언어를 아우르는 새로운 독성 평가 기준과 인간 평가를 결합하여 번역의 안전성을 종합적으로 평가하였다. 본 모델은 이전 최고 성능 모델 대비 BLEU 점수에서 44% 향상된 성과를 달성하였으며, 보편적 번역 시스템 구현을 위한 중요한 기반을 마련하였다. 마지막으로, 본 연구에서 제시된 모든 기여 사항을 오픈소스로 공개하였으며, 관련 자료는 https://github.com/facebookresearch/fairseq/tree/nllb 에서 확인할 수 있다.