11일 전
MURAL: 다중모달, 다중작업 언어 간 검색
Aashi Jain, Mandy Guo, Krishna Srinivasan, Ting Chen, Sneha Kudugunta, Chao Jia, Yinfei Yang, Jason Baldridge

초록
이미지-캡션 쌍과 번역 쌍은 언어 간의 깊은 표현과 연결을 학습하는 수단을 제공한다. MURAL(MUltimodal, MUltitask Representations Across Languages)은 이러한 두 유형의 쌍을 활용하는 이중 인코더로서, 두 가지 과제를 해결한다: 1) 이미지-텍스트 매칭, 2) 번역 쌍 매칭. 수십억 개의 번역 쌍을 통합함으로써 MURAL은 18억 개의 노이즈가 포함된 이미지-텍스트 쌍에서 학습된 최첨단 이중 인코더인 ALIGN(Jia 등, PMLR '21)을 확장하였다. 동일한 인코더를 사용할 경우, MURAL은 여러 데이터셋에서 자원이 풍부한 언어에 대해 ALIGN의 다중 모달 검색 성능과 동일하거나 이를 초과한다. 더욱 중요한 점은, 자원이 부족한 언어에 대해 성능이 크게 향상된다는 점이다. 이는 텍스트-텍스트 학습이 이러한 언어에 대한 이미지-캡션 예시 부족 문제를 극복할 수 있음을 보여준다. 예를 들어, 위키백과 이미지-텍스트 데이터셋에서 MURAL-base는 8개의 자원이 부족한 언어에 대해 제로샷 평균 리콜을 평균 8.1% 향상시키며, 파인튜닝 시에는 평균 6.8% 향상시켰다. 또한 MURAL의 텍스트 표현이 계통적 연결뿐만 아니라 지역 언어학적 특성, 예를 들어 발칸 언어권(Balkan Sprachbund)과 같은 현상에도 기반하여 군집됨을 보여주었다.