WIT: 다중모달 다중언어 기계학습을 위한 위키백과 기반 이미지 텍스트 데이터셋

딥 레프레젠테이션 학습 및 사전 학습 기술의 획기적 발전으로 인해, 하류 NLP(자연어처리), IR(정보 검색), 비전(시각) 작업 전반에서 큰 성능 향상이 이루어졌다. 다중모달 모델링 기법은 이미지와 텍스트 모달 간의 보완적인 정보를 학습하기 위해 대규모 고품질의 시각-언어 데이터셋을 활용하는 것을 목표로 한다. 본 논문에서는 다중모달 및 다국어 학습을 보다 효과적으로 지원하기 위해 위키백과 기반의 이미지-텍스트(WIT) 데이터셋(https://github.com/google-research-datasets/wit)을 소개한다. WIT는 108개 위키백과 언어에서 구성된 총 3,760만 개의 엔티티 풍부한 이미지-텍스트 예제로 구성되며, 이 중 1,150만 개의 고유 이미지가 포함되어 있다. 이 데이터셋의 규모는 이미지-텍스트 검색과 같은 하류 작업에 적용했을 때 다중모달 모델의 사전 학습 데이터셋으로 활용될 수 있음을 보여준다. WIT는 네 가지 주요且 독창적인 장점을 지닌다. 첫째, WIT는 이미지-텍스트 예제 수 기준으로 기존 데이터셋보다 3배 이상 큰 최대 규모의 다중모달 데이터셋이다(본문 작성 시점 기준). 둘째, WIT는 세계 최초로 대규모 다국어 지원을 구현한 데이터셋으로, 100개 이상의 언어(각 언어별 최소 12,000개의 예제 이상 포함)를 커버하며, 많은 이미지에 대해 다국어 텍스트를 제공한다. 셋째, 기존 데이터셋이 다루지 못한 다양한 개념과 실제 세계의 엔티티를 더 잘 반영하고 있다. 마지막으로, WIT는 실제 세계에서의 도전적인 테스트 세트를 제공하며, 이미지-텍스트 검색 작업을 예시로 실험적으로 이를 입증하였다.