18일 전

비전-언어 지식 증류를 통한 CLIP에서의 다중모달 생성 가능화

{Anonymous}
비전-언어 지식 증류를 통한 CLIP에서의 다중모달 생성 가능화
초록

최근 대규모 이미지-텍스트 쌍 데이터를 활용한 이중 스트림 아키텍처(예: CLIP) 기반의 대규모 시각-언어 사전학습(VLP)은 다양한 다중모달 정렬 작업에서 뛰어난 성능을 보여주고 있다. 그러나 이러한 모델은 텍스트 인코더의 약점으로 인해 생성형 다중모달 작업에는 적합하지 않다. 이 문제를 해결하기 위해, 시각-언어 지식 증류(VLKD)를 통해 이중 스트림 VLP 모델에 사전 학습된 언어 모델(PLM)을 보완하는 방안을 제안한다. 이를 통해 다중모달 생성 능력을 갖춘 모델을 구현할 수 있다. VLKD는 초기부터 사전학습을 수행하는 것에 비해 데이터 및 계산 자원 측면에서 매우 효율적이다. 실험 결과, 해당 모델은 개방형 시각 질문 응답(VQA) 및 이미지 캡셔닝과 같은 다중모달 생성 작업에서 뛰어난 제로샷 성능을 보였다. 예를 들어, VQA 2.0 데이터셋에서 39.7%의 제로샷 정확도를 달성하며, 파라미터 수가 14배 적은 이전 최고 성능 제로샷 모델을 초과하였다. 또한 VLKD 과정을 거친 후에도 원래 PLM의 텍스트 처리 능력이 유지되어, 본 모델은 다중모달 작업은 물론 단일모달 작업에도 유연하게 활용 가능하다.