17일 전

VLC-BERT: 맥락화된 일반 지식을 활용한 시각 질문 응답

Sahithya Ravi, Aditya Chinchure, Leonid Sigal, Renjie Liao, Vered Shwartz
VLC-BERT: 맥락화된 일반 지식을 활용한 시각 질문 응답
초록

시각 질문 응답(VQA) 과제를 해결하기 위한 관심이 이미지 내에 존재하는 내용을 넘어서 추론이 필요한 경우에 점점 증가하고 있다. 본 연구에서는 보편적 지식(commonsense) 추론이 필요한 질문에 초점을 맞춘다. 기존의 정적 지식 기반에서 지식을 주입하는 방법과는 달리, 인간이 정제한 지식 기반을 기반으로 훈련된 기존의 지식 모델인 보편적 전이기법(Commonsense Transformer, COMET)을 활용하여 맥락화된 지식을 통합하는 방안을 탐구한다. 우리는 새로운 사전 훈련된 시각-언어-보편적 지식 변환기 모델인 VLC-BERT를 제안하며, 이 모델은 시각적 및 텍스트적 단서와 함께 외부 보편적 지식을 생성하고, 선택하며, 인코딩하는 방법을 제공한다. OK-VQA 및 A-OKVQA와 같은 지식 집약형 데이터셋에서 수행한 평가를 통해, VLC-BERT가 정적 지식 기반을 활용하는 기존 모델들을 능가할 수 있음을 입증하였다. 더불어 상세한 분석을 통해 COMET에서 제공하는 맥락화된 보편적 지식이 어떤 유형의 질문에 효과적이며, 어떤 질문에는 효과적이지 않은지를 설명한다.