
摘要
大型多模态模型(Large Multimodal Models, LMMs)在自然语言理解和视觉理解方面表现优异,但在需要精确处理的任务中仍面临挑战,例如基于知识的视觉问答(Knowledge-based Visual Question Answering, KB-VQA)。此类任务要求从文档集合中检索相关信息,并据此生成准确的答案。为此,我们提出了一套全面的训练与评估框架——M2KR,用于KB-VQA任务。M2KR整合了一系列视觉与语言任务,构建为一个统一的基准测试套件,用于训练和评估通用多模态检索模型。我们基于M2KR开发了PreFLMR,即近期提出的细粒度晚期交互多模态检索器(Fine-grained Late-interaction Multi-modal Retriever, FLMR)方法的预训练版本,并在多个任务上取得了新的最先进(state-of-the-art)性能表现。此外,我们还对PreFLMR的扩展特性进行了深入研究,旨在为未来通用多模态检索器的发展提供有价值的参考与指导。