Command Palette

Search for a command to run...

4달 전

비전-언어 지식 증류를 통한 CLIP에서의 다중모달 생성 가능화

{Anonymous}

비전-언어 지식 증류를 통한 CLIP에서의 다중모달 생성 가능화

초록

최근 대규모 이미지-텍스트 쌍 데이터를 활용한 이중 스트림 아키텍처(예: CLIP) 기반의 대규모 시각-언어 사전학습(VLP)은 다양한 다중모달 정렬 작업에서 뛰어난 성능을 보여주고 있다. 그러나 이러한 모델은 텍스트 인코더의 약점으로 인해 생성형 다중모달 작업에는 적합하지 않다. 이 문제를 해결하기 위해, 시각-언어 지식 증류(VLKD)를 통해 이중 스트림 VLP 모델에 사전 학습된 언어 모델(PLM)을 보완하는 방안을 제안한다. 이를 통해 다중모달 생성 능력을 갖춘 모델을 구현할 수 있다. VLKD는 초기부터 사전학습을 수행하는 것에 비해 데이터 및 계산 자원 측면에서 매우 효율적이다. 실험 결과, 해당 모델은 개방형 시각 질문 응답(VQA) 및 이미지 캡셔닝과 같은 다중모달 생성 작업에서 뛰어난 제로샷 성능을 보였다. 예를 들어, VQA 2.0 데이터셋에서 39.7%의 제로샷 정확도를 달성하며, 파라미터 수가 14배 적은 이전 최고 성능 제로샷 모델을 초과하였다. 또한 VLKD 과정을 거친 후에도 원래 PLM의 텍스트 처리 능력이 유지되어, 본 모델은 다중모달 작업은 물론 단일모달 작업에도 유연하게 활용 가능하다.

벤치마크

벤치마크방법론지표
image-captioning-on-coco-captionsVLKD (ViT-B/16)
BLEU-4: 16.7
CIDER: 58.3
METEOR: 19.7
SPICE: 13.4
visual-question-answering-on-ok-vqaVLKD(ViT-B/16)
Accuracy: 10.5
visual-question-answering-on-vqa-v2-test-devVLKD
Accuracy: 44.5
visual-question-answering-on-vqa-v2-valVLKD(ViT-B/16)
Accuracy: 38.6

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
비전-언어 지식 증류를 통한 CLIP에서의 다중모달 생성 가능화 | 연구 논문 | HyperAI초신경