18일 전

사전 훈련된 비전 및 언어 모델은 시각 정보 탐색 질문에 답할 수 있는가?

Yang Chen, Hexiang Hu, Yi Luan, Haitian Sun, Soravit Changpinyo, Alan Ritter, Ming-Wei Chang
사전 훈련된 비전 및 언어 모델은 시각 정보 탐색 질문에 답할 수 있는가?
초록

사전 훈련된 시각 및 언어 모델은 이미지와 텍스트를 포함하는 다양한 작업, 특히 시각적 질문 응답(VQA)에서 기존의 방법들보다 뛰어난 성능을 보여왔다. 그러나 이러한 모델이 단순히 시각적 콘텐츠를 묻는 질문을 넘어서, 지식 집약적이고 정보 탐색을 목적으로 하는 질문에 답할 수 있는지 여부는 여전히 명확하지 않다. 본 연구에서는 단순한 일반 지식만으로는 답할 수 없으며, 정보 탐색을 위한 질문에 특화된 시각적 질문 응답 데이터셋인 InfoSeek를 제안한다. InfoSeek를 활용하여 다양한 사전 훈련된 시각적 질문 응답 모델을 분석하고, 그들의 특성에 대한 통찰을 얻었다. 연구 결과, 최신의 사전 훈련된 다모달 모델(예: PaLI-X, BLIP2 등)은 시각적 정보 탐색 질문에 대해 여전히 도전 과제에 직면하고 있음을 확인했다. 그러나 InfoSeek 데이터셋에 대한 미세 조정(fine-tuning)을 통해 모델이 사전 훈련 과정에서 학습한 세부적인 지식을 효과적으로 활용하는 것으로 나타났다. 또한, 정확한 시각적 실체 인식을 통해 관련 문서를 검색함으로써 InfoSeek에서의 성능 향상이 가능함을 보여주었으며, 이는 향후 개선 여지가 크다는 점을 시사한다.