2달 전

Plug-and-Play VQA: Zero-shot VQA by Conjoining Large Pretrained Models with Zero Training 플러그 앤 플레이 VQA: 제로 샷 VQA를 위한 대형 사전 학습 모델과 제로 트레이닝의 결합

Tiong, Anthony Meng Huat ; Li, Junnan ; Li, Boyang ; Savarese, Silvio ; Hoi, Steven C. H.
Plug-and-Play VQA: Zero-shot VQA by Conjoining Large Pretrained Models with Zero Training
플러그 앤 플레이 VQA: 제로 샷 VQA를 위한 대형 사전 학습 모델과 제로 트레이닝의 결합
초록

시각 질문 응답(VQA)은 시각과 언어 추론의 상징적인 특성이며 제로샷 설정에서 어려운 과제입니다. 우리는 제로샷 VQA를 위한 모듈식 프레임워크인 플러그 앤 플레이 VQA(PNP-VQA)를 제안합니다. 대부분의 기존 연구가 시각 모달리티에 대한 사전 훈련된 언어 모델(PLM)의 상당한 적응을 요구하는 것과 달리, PNP-VQA는 PLM에 대한 추가적인 훈련이 필요하지 않습니다. 대신, 우리는 자연어와 네트워크 해석을 중간 표현으로 사용하여 사전 훈련된 모델들을 연결시키는 방법을 제안합니다. 먼저, 질문을 안내하는 정보적인 이미지 캡션을 생성하고, 이를 PLM에 전달하여 질문 응답의 맥락으로 활용합니다. PNP-VQA는 엔드투엔드로 훈련된 기준모델들을 능가하며, 제로샷 VQAv2와 GQA에서 최고 수준의 결과를 달성하였습니다. 110억 개의 매개변수를 가진 PNP-VQA는 800억 개의 매개변수를 가진 Flamingo 모델보다 VQAv2에서 8.5% 높은 성능을 보였습니다. 7억 3800만 개의 PLM 매개변수를 사용할 때, PNP-VQA는 7억 4000만 개의 PLM 매개변수를 가진 FewVLM보다 GQA에서 9.1% 높은 성능 향상을 이룹니다. 코드는 https://github.com/salesforce/LAVIS/tree/main/projects/pnp-vqa 에서 제공됩니다.