16일 전
PreFLMR: 세부적인 후기상호작용 다중모달 검색기의 규모 확장
Weizhe Lin, Jingbiao Mei, Jinghong Chen, Bill Byrne

초록
대규모 다중모달 모델(LMMs)은 자연어 및 시각적 이해 능력에서 뛰어나지만, 문서 컬렉션에서 관련 정보를 검색하여 질문에 대한 답변을 구성하는 데 필요한 정교한 작업인 지식 기반 시각질의응답(KB-VQA)에는 여전히 도전에 직면해 있다. 본 연구에서는 KB-VQA를 위한 포괄적인 학습 및 평가 프레임워크인 M2KR를 제안한다. M2KR는 시각 및 언어 작업의 집합을 포함하며, 이를 하나의 통합 벤치마크 작업 세트로 통합하여 일반 목적의 다중모달 검색기의 학습 및 평가에 활용할 수 있도록 구성하였다. M2KR를 활용하여 최근 개발된 세부적인 후기 상호작용 다중모달 검색기(FLMR) 기법의 사전 학습 버전인 PreFLMR를 개발하였으며, 다양한 작업에서 새로운 최고 성능(SOTA) 결과를 보고한다. 또한, 일반 목적의 다중모달 검색기의 향후 개발에 유용할 수 있도록 PreFLMR의 규모 확장 특성에 대한 분석도 제시한다.