2달 전

VQA-E: 시각적 질문에 대한 답변을 설명하고, 보완하며, 향상시키기

Li, Qing ; Tao, Qingyi ; Joty, Shafiq ; Cai, Jianfei ; Luo, Jiebo
VQA-E: 시각적 질문에 대한 답변을 설명하고, 보완하며, 향상시키기
초록

시각적 질문 응답(VQA) 분야의 대부분의 기존 연구는 예측된 답변의 정확도 향상에 중점을 두고 있지만, 설명을 무시하고 있습니다. 우리는 답변 자체와 동등하거나 그보다 더 중요한 것이 답변에 대한 설명이라고 주장합니다. 이는 질문과 답변 과정을 더욱 이해하기 쉽고 추적 가능하게 만들기 때문입니다. 이를 위해 VQA-E (VQA with Explanation, 설명이 있는 VQA)라는 새로운 작업을 제안합니다. 여기서 계산 모델은 예측된 답변과 함께 설명을 생성해야 합니다. 먼저 새로운 데이터셋을 구축한 후, VQA-E 문제를 다중 작업 학습 아키텍처로 구성하였습니다. 우리의 VQA-E 데이터셋은 VQA v2 데이터셋에서 제공되는 캡션을 지능적으로 활용하여 자동으로 도출되었습니다. 사용자 연구를 수행하여 우리 방법으로 합성된 설명의 품질을 검증하였습니다. 우리는 정량적으로 추가적인 감독이 설명에서 유익한 문장 생성뿐만 아니라 답변 예측 성능 개선에도 기여함을 보였습니다. 우리의 모델은 VQA v2 데이터셋에서 최신 기법들을 명백히 능가하는 결과를 나타냈습니다.