사전 훈련된 모델의 전이적 적응을 통한 시각적 스토리텔링

비전-언어 생성 작업을 위한 기존 모델들은 보통 시각 인코더와 언어 생성기를 각각의 도메인에서 사전 학습한 후, 목표 작업과 함께 공동으로 미세 조정하는 방식을 사용한다. 그러나 이러한 직접적인 전이 학습 방식은 시각적 구체성과 언어의 자연스러움 사이의 불일치로 인해 어려움을 겪을 수 있다. 왜냐하면 시각 데이터와 텍스트 데이터의 방대한 코퍼스로부터 별개로 학습되기 때문에, 두 모델 간에 공통된 기반(공통 지표)이 부족하기 때문이다. 본 연구에서는, 시각 스토리텔링과 같은 도전적인 하류 작업을 수행하기 위해 사전 학습과 미세 조정 사이에 전이 적응(Transitional Adaptation) 단계가 필요하다고 주장한다. 이를 위해 우리는 다중 모달 모듈 간의 상호 적응을 가능하게 하는 새로운 접근법인 사전 학습 모델의 전이 적응(TAPM, Transitional Adaptation of Pretrained Model)을 제안한다. 이 방법은 텍스트 레이블 없이도 시각 입력 간의 단순한 정렬 작업을 통해 시각 인코더와 언어 모델을 상호 조화롭게 조정한다. 광범위한 실험을 통해, 적응 단계가 순차적 영상 및 이미지 캡셔닝 작업에 대한 다양한 언어 모델의 성능을 크게 향상시킴을 확인하였다. LSMDC 2019의 다문장 설명 작업과 VIST의 이미지 스토리텔링 작업에서 언어 평가 지표 및 인간 평가 모두에서 새로운 최고 성능을 달성하였다. 실험 결과에 따르면, 캡처 품질의 향상은 특정 언어 모델의 선택에 의존하지 않음을 확인할 수 있었다.