정교한 후기 상호작용 다중모달 검색을 통한 검색 증강형 시각 질문 응답

지식 기반 시각 질문 응답(Knowledge-based Visual Question Answering, KB-VQA)은 시각적으로 기반을 둔 질문에 답하기 위해 외부 지식 기반에서 지식을 활용할 수 있어야 하는 시스템을 요구한다. 이를 해결하기 위한 강력한 프레임워크로, 검색 증강 시각 질문 응답(Retrieval-Augmented Visual Question Answering, RA-VQA)이 존재한다. RA-VQA는 먼저 밀도 있는 파스티지 검색(Dense Passage Retrieval, DPR)을 통해 관련 문서를 검색한 후, 이를 바탕으로 질문에 답변한다. 본 논문에서는 RA-VQA의 지식 검색 성능을 크게 향상시키는 세부적인 후기 상호작용 다모달 검색(Fine-grained Late-interaction Multi-modal Retrieval, FLMR)을 제안한다. FLMR은 RA-VQA의 검색기(retriever)에서 발생하는 두 가지 주요한 한계를 해결한다. 첫째, 이미지-텍스트 변환을 통해 얻어진 이미지 표현은 완전하지 않거나 정확하지 않을 수 있다. 둘째, 질문과 문서 간의 관련성 점수는 일차원 임베딩을 기반으로 계산되며, 이는 더 세부적인 관련성에 민감하지 않을 수 있다. FLMR은 기존의 텍스트 기반 검색기와 일치하는 시각 모델을 간단한 정렬 네트워크를 통해 연결함으로써, 이미지-텍스트 변환에서 얻은 표현을 보완하는 이미지 표현을 얻는다. 또한 FLMR은 질문과 이미지를 다차원 임베딩을 사용하여 질문과 문서 간의 세부적인 관련성을 보다 정확히 포착한다. 결과적으로 FLMR은 원래 RA-VQA 검색기의 PRRecall@5 성능을 약 8% 향상시켰다. 마지막으로, RA-VQA에 최신의 대규모 다모달/언어 모델 두 가지를 적용하여 OK-VQA 데이터셋에서 약 61%의 VQA 점수를 달성하였다.