2달 전

VLIS: 단일 모드 언어 모델이 다중 모드 언어 생성을 안내하다

Jiwan Chung; Youngjae Yu
VLIS: 단일 모드 언어 모델이 다중 모드 언어 생성을 안내하다
초록

다중모달 언어 생성은 언어와 시각의 시너지를 활용하는 빠르게 성장하고 있는 분야입니다. 그러나 기존의 시각-언어 모델들은 복잡한 언어 이해가 필요한 작업에서 어려움을 겪고 있습니다. 이 문제를 해결하기 위해, 우리는 Visual-Language models as Importance Sampling weights (VLIS)라는 새로운 프레임워크를 소개합니다. 이 프레임워크는 추가 학습 없이 시각-언어 모델의 시각 조건부 능력과 단일모달 텍스트 전용 언어 모델의 언어 이해력을 결합합니다. VLIS는 각 이미지와 텍스트의 포인트와이즈 상호 정보(pointwise mutual information)를 시각-언어 모델에서 추출하여 이를 중요도 샘플링 가중치(importance sampling weight)로 사용하여 텍스트 전용 모델의 토큰 확률을 조정합니다. VLIS는 상식 이해(WHOOPS, OK-VQA, 그리고 ScienceQA)와 복잡한 텍스트 생성(Concadia, Image Paragraph Captioning, 그리고 ROCStories) 등 다양한 작업에서 시각-언어 모델들의 성능을 개선시킵니다. 우리의 결과는 VLIS가 다중모달 언어 생성에 있어 유망한 새로운 방향성을 제시한다는 것을 나타냅니다.

VLIS: 단일 모드 언어 모델이 다중 모드 언어 생성을 안내하다 | 최신 연구 논문 | HyperAI초신경