2달 전

플라밍고: 소수 샘플 학습을 위한 시각 언어 모델

Alayrac, Jean-Baptiste ; Donahue, Jeff ; Luc, Pauline ; Miech, Antoine ; Barr, Iain ; Hasson, Yana ; Lenc, Karel ; Mensch, Arthur ; Millican, Katie ; Reynolds, Malcolm ; Ring, Roman ; Rutherford, Eliza ; Cabi, Serkan ; Han, Tengda ; Gong, Zhitao ; Samangooei, Sina ; Monteiro, Marianne ; Menick, Jacob ; Borgeaud, Sebastian ; Brock, Andrew ; Nematzadeh, Aida ; Sharifzadeh, Sahand ; Binkowski, Mikolaj ; Barreira, Ricardo ; Vinyals, Oriol ; Zisserman, Andrew ; Simonyan, Karen
플라밍고: 소수 샘플 학습을 위한 시각 언어 모델
초록

다수의 주석된 예제를 사용하여 새로운 작업에 신속하게 적응할 수 있는 모델을 구축하는 것은 다중모달 기계학습 연구에서 여전히 해결되지 않은 과제입니다. 우리는 이러한 능력을 가진 시각 언어 모델(VLM)의 일련인 플라밍고(Flamingo)를 소개합니다. 우리는 다음과 같은 핵심 아키텍처 혁신을 제안합니다: (i) 강력한 사전 훈련된 시각 전용 및 언어 전용 모델을 연결하고, (ii) 임의로 교차된 시각적 및 텍스트 데이터 시퀀스를 처리하며, (iii) 이미지나 비디오를 입력으로 원활하게 받아들일 수 있도록 하는 것입니다. 이들의 유연성 덕분에 플라밍고 모델은 임의로 교차된 텍스트와 이미지를 포함하는 대규모 다중모달 웹 코퍼스에서 훈련될 수 있으며, 이는 모델이 문맥 내 소수 샘플 학습(in-context few-shot learning) 능력을 갖추는 데 중요한 역할을 합니다. 우리는 우리의 모델을 철저히 평가하여 다양한 이미지와 비디오 작업에 신속하게 적응하는 능력을 탐색하고 측정하였습니다. 이에는 시각 질문 응답과 같은 개방형 작업(모델이 질문에 답해야 함), 장면이나 사건을 설명하는 능력을 평가하는 캡셔닝 작업, 그리고 다중 선택 시각 질문 응답과 같은 폐쇄형 작업이 포함됩니다. 이러한 스펙트럼 어디든 위치할 수 있는 작업에 대해 단일 플라밍고 모델은 단순히 작업별 예제로 모델을 프롬프팅함으로써 소수 샘플 학습(few-shot learning)으로 새로운 최고 성능(state of the art)을 달성할 수 있습니다. 여러 벤치마크에서 플라밍고는数千倍更多的特定任务数据上微调的模型表现得更好。注:最后一句中的“数千倍更多的特定任务数据上微调的模型”是从中文翻译过来的,可能是原文翻译时的错误。根据英文原文,正确的韩文翻译应该是:다양한 벤치마크에서 플라밍고는数千倍更多的特定任务数据上微调的模型表现得更好。改正为:다양한 벤치마크에서 플라밍고는 특정 작업 데이터가 수천 배 더 많은 모델보다 우수한 성능을 보여주었습니다.

플라밍고: 소수 샘플 학습을 위한 시각 언어 모델 | 최신 연구 논문 | HyperAI초신경