
초록
외부 지식을 활용한 시각 질문 응답(OK-VQA)은 이미지에 대한 질문에 답하기 위해 외부 지식을 검색해야 하는 도전적인 VQA 작업이다. 최근의 OK-VQA 시스템들은 외부 지식 기반(예: 위키백과)에서 문서를 검색하기 위해 밀도 높은 파스aje 검색(DPR)을 사용하지만, DPR가 답변 생성과 별도로 학습되기 때문에 전체 시스템 성능에 한계가 생길 수 있다. 본 연구에서는 DPR를 답변 생성과 미분 가능한 방식으로 통합한 종합적 학습 방식을 제안한다. 이를 통해 시스템이 엔드 투 엔드(end-to-end) 방식으로 학습될 수 있도록 한다. 실험 결과, 강력한 DPR를 사용하는 최신 OK-VQA 시스템과 비교해 본 방식이 우수한 성능을 보였다. 또한, 검색과 생성 간의 상호작용을 분석하기 위한 새로운 진단 지표를 도입하였다. 본 모델의 뛰어난 검색 능력은 학습 시 필요한 검색 문서 수를 크게 감소시켜, 답변 품질 향상과 학습에 필요한 계산 자원 절감이라는 중요한 이점을 제공한다.