17일 전

시각-언어 표현 학습을 위한 대규모 적대적 훈련

Zhe Gan, Yen-Chun Chen, Linjie Li, Chen Zhu, Yu Cheng, Jingjing Liu
시각-언어 표현 학습을 위한 대규모 적대적 훈련
초록

우리는 시각-언어(V+L) 표현 학습을 위한 대규모 적대적 훈련에서 처음으로 제안된 VILLA를 소개한다. VILLA는 두 단계의 훈련 과정으로 구성된다: (i) 작업 무관(adversarial pre-training); (ii) 작업 특정(adversarial fine-tuning) 적대적 미세조정. 이미지 픽셀과 텍스트 토큰에 적대적 방해를 추가하는 대신, 각 모달리티의 임베딩 공간에서 적대적 훈련을 수행하는 방안을 제안한다. 대규모 훈련을 가능하게 하기 위해 '무료(free)' 적대적 훈련 전략을 채택하고, 임베딩 공간 내에서 더 높은 불변성(invariance)을 유도하기 위해 KL-발산 기반 정규화를 결합한다. VILLA를 현재 최고 성능을 기록하는 V+L 모델들에 적용한 결과, 시각질문응답(VQA), 시각적 일반지식 추론(Visual Commonsense Reasoning), 이미지-텍스트 검색(Image-Text Retrieval), 표현식 이해(Referring Expression Comprehension), 시각적 함의(Visual Entailment), NLVR2 등 다양한 작업에서 새로운 최고 성능(SOTA)을 달성하였다.

시각-언어 표현 학습을 위한 대규모 적대적 훈련 | 최신 연구 논문 | HyperAI초신경