2달 전
"이것은 제 유니콘, 플러피입니다": 동결된 시각-언어 표현의 개인화
Niv Cohen; Rinon Gal; Eli A. Meirom; Gal Chechik; Yuval Atzmon

초록
웹 규모의 데이터로 사전 학습된 대형 비전 및 언어 모델은 다양한 비전 및 언어(V&L) 문제에 있어 귀중한 표현을 제공합니다. 그러나 이러한 모델이 구조화되지 않은 언어에서 사용자 특유의 시각적 개념에 대해 추론하는 방법은 명확하지 않습니다. 이 문제는 개인화된 이미지 검색부터 스마트 기기와의 개인화된 상호작용까지 여러 영역에서 발생합니다. 우리는 사용자 특유의 "개인화된" 개념을 "야생 환경"에서 검색하고 분할하기 위한 두 개의 새로운 벤치마크 데이터셋과 함께 Personalized Vision & Language (PerVL)라는 새로운 학습 설정을 소개합니다. PerVL에서는 (1) 다운스트림 작업과 독립적으로, (2) 사전 학습된 모델이 자유롭게 언어를 사용하여 이러한 개념에 대해 추론할 수 있도록, 그리고 (3) 개인화된 부정 예제가 필요하지 않도록 개인화된 개념을 학습해야 합니다. 우리는 PerVL을 해결하기 위한 아키텍처를 제안하는데, 이는 사전 학습된 모델의 입력 어휘집에 새로운 단어 임베딩을 추가하여 작동합니다. 이렇게 하면 모델은 문장에서 해당 단어를 간단히 사용함으로써 이들 개념에 대해 추론할 수 있습니다. 우리는 제안한 접근 방식이 몇 개의 예제로부터 개인화된 시각적 개념을 학습할 수 있으며, 풍부한 텍스트 쿼리를 사용하여 이미지 검색과 의미 분할에 효과적으로 적용될 수 있음을 보여줍니다.