13일 전

CLIP은 시각-언어 작업에 얼마나 도움이 될 수 있는가?

Sheng Shen, Liunian Harold Li, Hao Tan, Mohit Bansal, Anna Rohrbach, Kai-Wei Chang, Zhewei Yao, Kurt Keutzer
CLIP은 시각-언어 작업에 얼마나 도움이 될 수 있는가?
초록

현재 대부분의 시각-언어(Vision-and-Language, V&L) 모델은 비교적 적은 수의 수동으로 주석이 달린 데이터(웹 크롤링 데이터에 비해)를 사용하여 시각 세계를 인식하는 데 전처리된 시각 인코더에 의존하고 있다. 그러나 대규모 사전 훈련이 일반화 성능을 향상시킬 수 있다는 점이 관찰되었으며, 예를 들어 대량의 이미지-캡션 쌍으로 훈련된 CLIP(Contrastive Language-Image Pre-training)는 다양한 시각 작업에서 뛰어난 제로샷(zero-shot) 능력을 보여주었다. CLIP이 가져오는 이점을 더 깊이 탐구하기 위해, 두 가지 대표적인 시나리오에서 CLIP을 다양한 V&L 모델의 시각 인코더로 사용하는 방안을 제안한다. 첫째, CLIP을 작업 특화 미세조정(task-specific fine-tuning)에 통합하는 방식이며, 둘째, CLIP을 V&L 사전 훈련과 결합하여 하류 작업으로 전이하는 방식이다. 실험 결과, CLIP은 도메인 내 주석 데이터로 훈련된 널리 사용되는 시각 인코더인 BottomUp-TopDown보다 뚜렷한 성능 우위를 보였다. 다양한 V&L 작업에서 경쟁력 있는 또는 더 우수한 성과를 달성하였으며, 특히 시각적 질의 응답(Visual Question Answering), 시각적 함의(Visual Entailment), 시각-언어 탐색(V&L Navigation) 작업에서는 새로운 최고 성능(SOTA)을 수립하였다. 코드는 https://github.com/clip-vil/CLIP-ViL 에 공개하였다.

CLIP은 시각-언어 작업에 얼마나 도움이 될 수 있는가? | 최신 연구 논문 | HyperAI초신경