2달 전

Z-LaVI: 시각적 상상력을 활용한 제로샷 언어 해결사

Yue Yang; Wenlin Yao; Hongming Zhang; Xiaoyang Wang; Dong Yu; Jianshu Chen
Z-LaVI: 시각적 상상력을 활용한 제로샷 언어 해결사
초록

대규모 사전 학습 언어 모델은 하류 언어 이해 작업을 해결하는 데 상당한 진보를 이루었습니다. 그러나 일반적으로 이러한 모델들은 '오렌지가 주황색이다'와 같은 명시적인 상식 지식이 서면 텍스트에 부족한 현상인 보고 편향(reporting bias) 문제를 겪습니다. 이 제한을 극복하기 위해, 우리는 언어 모델에 시각적 상상력을 부여하는 새로운 접근 방식인 Z-LaVI를 개발하였습니다. 구체적으로, 다음과 같은 두 가지 보완적인 유형의 '상상력'을 활용합니다: (i) 검색을 통해 기존 이미지를 회상하고 (ii) 텍스트-이미지 생성을 통해 존재하지 않는 이미지를 합성합니다. 언어 입력과 상상을 함께 활용함으로써, 사전 학습된 시각-언어 모델(예: CLIP)은 결국 원래의 언어 작업에 대한 제로샷(zero-shot) 솔루션을 구성하게 됩니다. 특히, 언어 모델에 상상을 제공하면 평범한 언어 작업을 해결하는 데 시각적 지식을 효과적으로 활용할 수 있습니다. 결과적으로, Z-LaVI는 다양한 언어 작업에서 기존 언어 모델의 제로샷 성능을 일관되게 향상시키는 것으로 나타났습니다.

Z-LaVI: 시각적 상상력을 활용한 제로샷 언어 해결사 | 최신 연구 논문 | HyperAI초신경