17일 전

VLN-PETL: 시각-언어 탐색을 위한 파라미터 효율적 전이 학습

Yanyuan Qiao, Zheng Yu, Qi Wu
VLN-PETL: 시각-언어 탐색을 위한 파라미터 효율적 전이 학습
초록

최근 대규모 사전 훈련된 시각-언어 모델의 활용으로 인해 시각-언어 탐색(Vision-and-Language Navigation, VLN) 작업의 성능이 급속도로 향상되고 있다. 그러나 각 하류 VLN 작업에 대해 사전 훈련된 모델을 전면적으로 미세조정하는 것은 모델의 크기가 크기 때문에 점점 더 비용이 많이 드는 문제가 되고 있다. 최근 주목받는 파라미터 효율적 전이학습(Parameter-Efficient Transfer Learning, PETL) 기법은 일반적인 컴퓨터 비전(CV) 및 자연어처리(NLP) 작업에서 대규모 사전 훈련 모델을 효율적으로 조정할 수 있는 큰 잠재력을 보이고 있다. 이 기법은 사전 훈련된 모델 내에 내재된 표현 지식을 최대한 활용하면서도, 최소한의 파라미터만을 조정함으로써 비용을 절감한다. 그러나 보편적인 PETL 기법을 더 도전적인 VLN 작업에 단순히 적용할 경우 성능 저하가 심각하게 발생할 수 있다. 따라서 본 연구는 VLN 작업에 대한 PETL 기법을 처음으로 탐색하고, VLN에 특화된 PETL 방법인 VLN-PETL을 제안한다. 구체적으로, 역사적 상호작용 부스터(Historical Interaction Booster, HIB)와 다모달 상호작용 부스터(Cross-modal Interaction Booster, CIB)라는 두 가지 PETL 모듈을 설계하였으며, 이 두 모듈을 기존의 여러 PETL 기법들과 결합하여 통합된 VLN-PETL을 구성하였다. 네 가지 주요 VLN 작업(R2R, REVERIE, NDH, RxR)에 대한 광범위한 실험 결과를 통해 제안한 VLN-PETL의 효과성을 입증하였으며, VLN-PETL는 전면 미세조정과 비교해 유사하거나 더 뛰어난 성능을 달성하였고, 다른 PETL 기법들보다도 유의미한 성능 우위를 보였다.