2달 전

MELTR: 메타 로스 트랜스포머를 이용한 비디오 기초 모델의 미세 조정 학습

Dohwan Ko; Joonmyung Choi; Hyeong Kyu Choi; Kyoung-Woon On; Byungseok Roh; Hyunwoo J. Kim
MELTR: 메타 로스 트랜스포머를 이용한 비디오 기초 모델의 미세 조정 학습
초록

기초 모델들은 다양한 분야에서 뛰어난 성능과 일반화 능력을 보여주었습니다. 기초 모델에 대한 대부분의 연구가 사전 학습 단계에 주로 집중되어 있기 때문에, 미세 조정(fine-tuning) 단계에서는 특정 작업에 대한 손실을 최소화하는 단순한 전략이 채택되었습니다. 그러나 이러한 미세 조정 방법은 대상 작업에 유익할 수 있는 다른 손실 함수들을 충분히 활용하지 못합니다. 따라서, 우리는 MEta Loss TRansformer (MELTR)라는 플러그인 모듈을 제안합니다. 이 모듈은 다양한 손실 함수를 자동으로 비선형적으로 결합하여 보조 학습(auxiliary learning)을 통해 대상 작업 학습을 돕습니다. 우리는 보조 학습을 이중 최적화 문제로 정식화하고, 근사 암시적 미분(Approximate Implicit Differentiation, AID) 기반의 효율적인 최적화 알고리즘을 제시합니다. 평가를 위해, 우리의 프레임워크를 여러 비디오 기초 모델(UniVL, Violet 및 All-in-one)에 적용하여 텍스트-비디오 검색, 비디오 질문 응답, 비디오 캡셔닝 및 다중 모달 감성 분석 등 네 가지 하위 작업에서 상당한 성능 향상을 보여줍니다. 우리의 정성적 분석은 MELTR이 개별 손실 함수들을 적절하게 변환(transforms)하고 이를 효과적인 통합 손실로 융합(melts)함을 입증합니다. 코드는 https://github.com/mlvlab/MELTR에서 제공됩니다.

MELTR: 메타 로스 트랜스포머를 이용한 비디오 기초 모델의 미세 조정 학습 | 최신 연구 논문 | HyperAI초신경