16일 전

정교한 후기 상호작용 다중모달 검색을 통한 검색 증강형 시각 질문 응답

Weizhe Lin, Jinghong Chen, Jingbiao Mei, Alexandru Coca, Bill Byrne
정교한 후기 상호작용 다중모달 검색을 통한 검색 증강형 시각 질문 응답
초록

지식 기반 시각 질문 응답(Knowledge-based Visual Question Answering, KB-VQA)은 시각적으로 기반을 둔 질문에 답하기 위해 외부 지식 기반에서 지식을 활용할 수 있어야 하는 시스템을 요구한다. 이를 해결하기 위한 강력한 프레임워크로, 검색 증강 시각 질문 응답(Retrieval-Augmented Visual Question Answering, RA-VQA)이 존재한다. RA-VQA는 먼저 밀도 있는 파스티지 검색(Dense Passage Retrieval, DPR)을 통해 관련 문서를 검색한 후, 이를 바탕으로 질문에 답변한다. 본 논문에서는 RA-VQA의 지식 검색 성능을 크게 향상시키는 세부적인 후기 상호작용 다모달 검색(Fine-grained Late-interaction Multi-modal Retrieval, FLMR)을 제안한다. FLMR은 RA-VQA의 검색기(retriever)에서 발생하는 두 가지 주요한 한계를 해결한다. 첫째, 이미지-텍스트 변환을 통해 얻어진 이미지 표현은 완전하지 않거나 정확하지 않을 수 있다. 둘째, 질문과 문서 간의 관련성 점수는 일차원 임베딩을 기반으로 계산되며, 이는 더 세부적인 관련성에 민감하지 않을 수 있다. FLMR은 기존의 텍스트 기반 검색기와 일치하는 시각 모델을 간단한 정렬 네트워크를 통해 연결함으로써, 이미지-텍스트 변환에서 얻은 표현을 보완하는 이미지 표현을 얻는다. 또한 FLMR은 질문과 이미지를 다차원 임베딩을 사용하여 질문과 문서 간의 세부적인 관련성을 보다 정확히 포착한다. 결과적으로 FLMR은 원래 RA-VQA 검색기의 PRRecall@5 성능을 약 8% 향상시켰다. 마지막으로, RA-VQA에 최신의 대규모 다모달/언어 모델 두 가지를 적용하여 OK-VQA 데이터셋에서 약 61%의 VQA 점수를 달성하였다.

정교한 후기 상호작용 다중모달 검색을 통한 검색 증강형 시각 질문 응답 | 최신 연구 논문 | HyperAI초신경