HyperAI

초록

최근 대규모 이미지-텍스트 쌍 데이터를 활용한 이중 스트림 아키텍처(예: CLIP) 기반의 대규모 시각-언어 사전학습(VLP)은 다양한 다중모달 정렬 작업에서 뛰어난 성능을 보여주고 있다. 그러나 이러한 모델은 텍스트 인코더의 약점으로 인해 생성형 다중모달 작업에는 적합하지 않다. 이 문제를 해결하기 위해, 시각-언어 지식 증류(VLKD)를 통해 이중 스트림 VLP 모델에 사전 학습된 언어 모델(PLM)을 보완하는 방안을 제안한다. 이를 통해 다중모달 생성 능력을 갖춘 모델을 구현할 수 있다. VLKD는 초기부터 사전학습을 수행하는 것에 비해 데이터 및 계산 자원 측면에서 매우 효율적이다. 실험 결과, 해당 모델은 개방형 시각 질문 응답(VQA) 및 이미지 캡셔닝과 같은 다중모달 생성 작업에서 뛰어난 제로샷 성능을 보였다. 예를 들어, VQA 2.0 데이터셋에서 39.7%의 제로샷 정확도를 달성하며, 파라미터 수가 14배 적은 이전 최고 성능 제로샷 모델을 초과하였다. 또한 VLKD 과정을 거친 후에도 원래 PLM의 텍스트 처리 능력이 유지되어, 본 모델은 다중모달 작업은 물론 단일모달 작업에도 유연하게 활용 가능하다.

벤치마크	방법론	지표
image-captioning-on-coco-captions	VLKD (ViT-B/16)	BLEU-4: 16.7 CIDER: 58.3 METEOR: 19.7 SPICE: 13.4
visual-question-answering-on-ok-vqa	VLKD(ViT-B/16)	Accuracy: 10.5
visual-question-answering-on-vqa-v2-test-dev	VLKD	Accuracy: 44.5
visual-question-answering-on-vqa-v2-val	VLKD(ViT-B/16)	Accuracy: 38.6

벤치마크

방법론

지표

image-captioning-on-coco-captions

VLKD (ViT-B/16)

BLEU-4: 16.7

CIDER: 58.3

METEOR: 19.7

SPICE: 13.4

visual-question-answering-on-ok-vqa

VLKD(ViT-B/16)

Accuracy: 10.5

visual-question-answering-on-vqa-v2-test-dev

VLKD

Accuracy: 44.5

visual-question-answering-on-vqa-v2-val

VLKD(ViT-B/16)

Accuracy: 38.6

비전-언어 지식 증류를 통한 CLIP에서의 다중모달 생성 가능화

{Anonymous}

초록

벤치마크

AI로 AI 구축

Hyper Newsletters

Command Palette

비전-언어 지식 증류를 통한 CLIP에서의 다중모달 생성 가능화

{Anonymous}

초록

벤치마크

AI로 AI 구축

Hyper Newsletters