11일 전

PromptCap: 프롬프트 유도형 작업 인식 이미지 캡션 생성

Yushi Hu, Hang Hua, Zhengyuan Yang, Weijia Shi, Noah A Smith, Jiebo Luo
PromptCap: 프롬프트 유도형 작업 인식 이미지 캡션 생성
초록

지식 기반 시각 질문 응답(VQA)은 이미지 외부의 세계 지식이 필요하여 정확한 답변을 도출해야 하는 질문을 포함한다. GPT-3과 같은 대규모 언어 모델(LM)은 강력한 지식 검색 및 추론 능력 덕분에 이 작업에서 특히 유용하다. LM이 이미지를 이해할 수 있도록 하기 위해 기존 연구는 이미지를 텍스트로 변환하기 위해 캡셔닝 모델을 사용한다. 그러나 단일 문장의 캡셔닝으로 이미지를 요약할 때, 어떤 시각적 실체를 묘사할지가 종종 명확하지 않다. 일반적인 이미지 캡셔닝은 LM이 시각적 질문에 정확히 답하기 위해 필수적인 시각적 세부 정보를 놓치는 경우가 많다. 이러한 문제를 해결하기 위해, 우리는 이미지와 블랙박스 언어 모델 간의 더 나은 연결 고리 역할을 할 수 있도록 설계된 캡셔닝 모델인 PromptCap(Prompt-가이드된 이미지 캡셔닝)을 제안한다. 일반적인 캡셔닝과 달리, PromptCap는 생성된 캡셔닝에서 묘사할 시각적 실체를 제어하기 위해 자연어 프롬프트를 입력받는다. 이 프롬프트는 캡셔닝이 도움을 줄 질문을 포함한다. 추가적인 레이블링 없이 PromptCap는 GPT-3와 기존 데이터셋을 활용해 합성된 예시를 통해 학습된다. 기존의 GPT-3가 이미지 캡셔닝을 입력받아 VQA를 수행하는 파이프라인에서 PromptCap의 효과를 입증하였다. PromptCap는 일반적인 캡셔닝에 비해 크게 우수한 성능을 보이며, 지식 기반 VQA 작업에서 최신 기술 수준의 정확도를 달성하였다(OK-VQA에서 60.4%, A-OKVQA에서 59.6%). WebQA에 대한 제로샷 실험 결과는 PromptCap가 미지의 도메인에도 잘 일반화됨을 보여준다.

PromptCap: 프롬프트 유도형 작업 인식 이미지 캡션 생성 | 최신 연구 논문 | HyperAI초신경