17일 전

GPT-3을 활용한 소량 샘플 기반 지식 기반 VQA에 대한 실증 연구

Zhengyuan Yang, Zhe Gan, Jianfeng Wang, Xiaowei Hu, Yumao Lu, Zicheng Liu, Lijuan Wang
GPT-3을 활용한 소량 샘플 기반 지식 기반 VQA에 대한 실증 연구
초록

지식 기반 시각 질문 응답(VQA)은 이미지 내에 존재하지 않는 외부 지식이 필요한 질문에 답하는 작업을 의미한다. 기존의 방법들은 먼저 외부 자원에서 지식을 검색한 후, 선택된 지식, 입력 이미지, 질문을 바탕으로 추론하여 답변을 예측하는 두 단계 접근법을 사용한다. 그러나 이러한 이중 단계 방식은 성능을 제한할 수 있는 불일치를 초래할 수 있다. 예를 들어, 검색된 지식은 노이즈가 많고 질문과 관련성이 낮을 수 있으며, 추론 과정에서 재임베딩된 지식 특성은 지식 기반(KB) 내 원래 의미와 다를 수 있다. 이러한 문제를 해결하기 위해, 우리는 이미지 설명문(Image Captions)을 활용하여 GPT-3를 프롬프팅하는 간단하면서도 효과적인 방법인 PICa를 제안한다. GPT-3의 지식 검색 및 질문 응답 능력에 영감을 받아, 기존 연구에서 사용하던 구조화된 지식 기반 대신, GPT-3를 암묵적이고 비구조화된 지식 기반으로 간주하여 관련 지식을 동시에 획득하고 처리할 수 있도록 한다. 구체적으로, 먼저 이미지를 GPT-3가 이해할 수 있는 설명문(또는 태그)으로 변환한 후, 몇 가지 컨텍스트 내 VQA 예시를 제공함으로써 GPT-3를 소수의 예시(few-shot) 방식으로 VQA 작업에 적응시킨다. 또한, (i) 이미지 내용을 가장 잘 설명하는 텍스트 형식은 무엇인지, (ii) 컨텍스트 내 예시를 어떻게 더 효과적으로 선택하고 활용할 수 있는지에 대해 철저히 탐구함으로써 성능을 further 향상시켰다. PICa는 GPT-3를 다중 모달 작업에 처음으로 활용한 사례이다. 단 16개의 예시만을 사용하여 OK-VQA 데이터셋에서 지도 학습 기반 최신 기법보다 절대적으로 +8.6점의 성능 향상을 달성했다. 또한 VQAv2에서의 벤치마킹 결과에서도 PICa는 우수한 소수 예시(few-shot) 성능을 보였다.