17일 전
지식 기반 시각질의 응답을 위한 간단한 베이스라인
Alexandros Xenos, Themos Stafylakis, Ioannis Patras, Georgios Tzimiropoulos

초록
이 논문은 지식 기반 시각질문응답(Knowledge-Based Visual Question Answering, KB-VQA) 문제에 관한 연구이다. 최근의 연구들은 외부 데이터베이스를 통해 제공되는 명시적 지식과 대규모 언어 모델(LLM)을 통한 암시적 지식을 결합함으로써 외부 지식이 필요한 질문에 효과적으로 답변할 수 있음을 강조하고 있다. 그러나 이러한 접근 방식의 일반적인 한계는 비교적 복잡한 파이프라인을 구성하고 있으며, 종종 GPT-3 API에 대한 접근에 크게 의존한다는 점이다. 본 논문의 주요 기여는, 질문에 정보가 포함된 캡션(question-informative captions)을 맥락 정보로 사용하여 LLaMA(1 및 2) 모델에 효율적인 인-컨텍스트 학습을 유도하는 간단하고 재현이 용이한 파이프라인을 제안하는 것이다. 최근의 다른 방법들과 달리, 본 방법은 학습 과정이 필요 없으며 외부 데이터베이스나 API에 접근할 필요도 없으며, 동시에 OK-VQA 및 A-OK-VQA 데이터셋에서 최신 기준(SOTA) 성능을 달성하고 있다. 마지막으로, 본 방법의 중요한 특성들을 이해하기 위해 여러 가지 아블레이션 연구(ablation studies)를 수행하였다. 본 연구의 코드는 공개되어 있으며, 다음의 URL에서 확인할 수 있다: https://github.com/alexandrosXe/ASimple-Baseline-For-Knowledge-Based-VQA