2달 전

SeamlessM4T: 대규모 다국어 및 다중 모드 기계 번역

Seamless Communication; Loïc Barrault; Yu-An Chung; Mariano Cora Meglioli; David Dale; Ning Dong; Paul-Ambroise Duquenne; Hady Elsahar; Hongyu Gong; Kevin Heffernan; John Hoffman; Christopher Klaiber; Pengwei Li; Daniel Licht; Jean Maillard; Alice Rakotoarison; Kaushik Ram Sadagopan; Guillaume Wenzek; Ethan Ye; Bapi Akula; Peng-Jen Chen; Naji El Hachem; Brian Ellis; Gabriel Mejia Gonzalez; Justin Haaheim; Prangthip Hansanti; Russ Howes; Bernie Huang; Min-Jae Hwang; Hirofumi Inaguma; Somya Jain; Elahe Kalbassi; Amanda Kallet; Ilia Kulikov; Janice Lam; Daniel Li; Xutai Ma; Ruslan Mavlyutov; Benjamin Peloquin; Mohamed Ramadan; Abinesh Ramakrishnan; Anna Sun; Kevin Tran; Tuan Tran; Igor Tufanov; Vish Vogeti; Carleigh Wood; Yilin Yang; Bokai Yu; Pierre Andrews; Can Balioglu; Marta R. Costa-jussà; Onur Celebi; Maha Elbayad; Cynthia Gao; Francisco Guzmán; Justine Kao; Ann Lee; Alexandre Mourachko; Juan Pino; Sravya Popuri; Christophe Ropers; Safiyyah Saleem; Holger Schwenk; Paden Tomasello; Changhan Wang; Jeff Wang; Skyler Wang
SeamlessM4T: 대규모 다국어 및 다중 모드 기계 번역
초록

바벨피시(Babel Fish)라는 도구를 만드는 데 필요한 것은 무엇일까요? 이 도구는 개인들이 어떤 두 언어 사이에서도 말을 번역할 수 있도록 돕습니다. 최근 텍스트 기반 모델의 혁신으로 기계 번역의 범위가 200개 이상의 언어를 넘어서게 되었지만, 통합된 음성-음성 번역 모델은 아직 유사한 발전을 이루지 못했습니다. 더욱 구체적으로, 전통적인 음성-음성 번역 시스템은 단계적으로 번역을 수행하는 계단식 시스템에 의존하여 성능이 뛰어난 통합 시스템을 구현하기 어려웠습니다.이러한 격차를 해결하기 위해, 우리는 최대 100개의 언어에 대해 음성-음성 번역, 음성-텍스트 번역, 텍스트-음성 번역, 텍스트-텍스트 번역 및 자동 음성 인식을 지원하는 단일 모델인 SeamlessM4T를 소개합니다. 이를 구축하기 위해, 우리는 1백만 시간 분량의 오픈 소스 음성 오디오 데이터를 사용하여 w2v-BERT 2.0로 자기 감독 학습 방식의 음성 표현을 학습하였습니다. 그 다음으로, 자동으로 정렬된 음성 번역 데이터로 구성된 다중 모달 코퍼스를 생성하였습니다. 인간이 라벨링한 데이터와 가상 라벨링(pseudo-labeled) 데이터를 필터링하고 결합하여, 영어로 양방향으로 텍스트와 음성을 모두 번역할 수 있는 첫 다국어 시스템을 개발하였습니다.FLEURS에서 SeamlessM4T는 여러 목표 언어로의 번역에서 새로운 기준을 설정하며, 직접적인 음성-텍스트 번역에서 이전 최고 기술(SOTA) 대비 20% BLEU 점수 개선을 달성하였습니다. 강력한 계단식 모델과 비교했을 때, SeamlessM4T는 음성-텍스트에서 영어로의 번역 품질을 1.3 BLEU 점수 개선시키고, 음성-음성에서는 2.6 ASR-BLEU 점수 개선을 이루어냈습니다. 안정성을 검증하기 위해 우리의 시스템은 현재 최고 기술(SOTA) 모델보다 배경 소음과 화자 변동에 대해 더 우수한 성능을 보였습니다.또한 중요한 점은 SeamlessM4T를 성별 편향과 독성이 추가된 문장에 대해 평가하여 번역 안전성을 확인하였습니다. 마지막으로, 본 연구의 모든 기여는 오픈 소스화되어 https://github.com/facebookresearch/seamless_communication에서 접근 가능합니다.