다중모달 적응형 다이스틸레이션을 통한 단일모달 인코더의 시각-언어 작업 활용

시각-언어(VL) 작업을 위한 크로스모달 인코더는 종종 철저히 구성된 시각-언어 데이터셋을 기반으로 사전 훈련된다. 이러한 데이터셋은 약 1,000만 개의 샘플 규모에 이르지만, 그만큼의 노동력 비용이 발생하여 더욱 확장하기에는 부담스럽다. 반면, 유모달 인코더는 더 간단한 어노테이션을 사용하여 사전 훈련되며, 이는 비용 측면에서 더 타당한 방식으로 수억에서 수십억 단위의 규모에 이르게 되었다. 그 결과 유모달 인코더는 많은 하류 작업에서 최신 기술(SOTA) 성능을 달성하였다. 그러나 VL 작업에 적용할 때 여전히 도전 과제가 존재한다. 사전 훈련 데이터는 크로스모달 아키텍처에 최적화되어 있지 않으며, 고성능을 위해 막대한 계산 자원이 필요하다. 게다가 유모달 아키텍처는 VL 작업에 있어 상당한 이점을 보여온 크로스모달 상호작용을 결여하고 있다. 따라서 사전 훈련된 유모달 인코더를 VL 작업에 어떻게 최적으로 활용할 것인지 여전히 활발한 연구 주제로 남아 있다. 본 연구에서는 기존 VL 접근법을 보완하면서도 계산 복잡도를 유지하는 방식으로 유모달 시각 및 텍스트 인코더를 VL 작업에 활용할 수 있는 방법을 제안한다. 구체적으로, 사전 훈련된 인코더로부터 유용한 지식을 크로스모달 VL 인코더로 적응적으로 전이하는 다모달 적응형 디스틸리케이션(Multimodal Adaptive Distillation, MAD)을 제안한다. 또한 VL 작업 성능에 미치는 세부적인 영향을 보다 정교하게 분석하기 위해, 다양한 데이터 제약 조건과 도메인 전이 조건 하에서 시각적 공감지식 추론(VCR), 시각적 함의(SNLI-VE), 시각적 질의응답(VQA)을 포함한 평가 프로토콜을 도입한다. 실험 결과, MAD는 VCR, SNLI-VE, VQA에서 저샷(low-shot), 도메인 전이(domain-shifted), 완전 감독(fully-supervised) 조건에서 일관된 성능 향상을 보였으며, 이미지-텍스트 데이터로 사전 훈련된 단일 모델 중 VCR에서 최신 기술(SOTA) 성능을 달성하였다. 마지막으로, CLIP의 사전 훈련된 시각 인코더를 활용한 동시 연구들과 비교하여 MAD는 더 우수한 성능을 보였다. 코드는 공개될 예정이다.