17일 전

프로페트: 지식 기반 시각질의 응답을 위한 보완적 답변 히우리스틱을 활용한 프롬프팅 기법을 통한 대규모 언어 모델 활용

Yu, Zhou, Ouyang, Xuecheng, Shao, Zhenwei, Wang, Meng, Yu, Jun
프로페트: 지식 기반 시각질의 응답을 위한 보완적 답변 히우리스틱을 활용한 프롬프팅 기법을 통한 대규모 언어 모델 활용
초록

지식 기반 시각 질문 응답(VQA)은 이미지 외부의 추가 지식을 활용하여 질문에 답해야 하는 과제이다. 초기 연구들은 필요한 지식을 명시적인 지식 기반(KB)에서 검색하는 방식을 사용하였으나, 이 과정에서 질문과 관련 없는 정보가 포함되는 경우가 많아 모델의 성능에 제한을 초래하였다. 최근 연구들은 이를 해결하기 위해 강력한 대규모 언어 모델(LLM)을 암시적 지식 엔진으로 활용하여 필요한 지식을 획득하는 방식을 도입하였다. 이러한 방법들은 희망적인 성과를 거두었지만, 우리는 제공되는 텍스트 입력이 질문에 답하기 위해 필요한 시각 정보를 충분히 묘사하지 못하기 때문에, \emph{눈먼} LLM의 잠재력을 충분히 발휘하지 못하고 있다고 주장한다. 본 논문에서는 지식 기반 VQA를 위한 LLM 프롬프트를 보다 효과적으로 유도하기 위해 설계된 개념적으로 단순하고 유연하며 일반적인 프레임워크인 Prophet을 제안한다. 구체적으로, 우리는 외부 지식 없이 특정 지식 기반 VQA 데이터셋에서 일반적인 VQA 모델을 먼저 학습한다. 이후 학습된 VQA 모델로부터 두 가지 보완적인 답변 힌트를 추출한다: 답변 후보(Answer candidates)와 답변 인식 예시(Answer-aware examples). 이 두 유형의 답변 힌트를 형식화된 프롬프트에 통합하여 LLM이 이미지와 질문을 보다 정확히 이해할 수 있도록 유도함으로써 보다 정확한 답변을 생성하도록 한다. 최신 LLM인 GPT-3를 활용한 Prophet은 네 가지 도전적인 지식 기반 VQA 데이터셋에서 기존 최고 수준의 방법들을 크게 능가하는 성능을 보였다. Prophet은 다양한 VQA 모델(판별형 및 생성형 모두)과 다양한 LLM(상용 및 오픈소스 모두)의 조합으로 구현 가능하여 매우 일반적인 접근 방식이다. 더불어 Prophet은 다양한 단계에서 최신 대규모 다중모달 모델과 통합될 수 있으며, 이를 Prophet++로 명명하여 지식 기반 VQA 과제에서의 능력을 추가로 향상시킬 수 있다.