HyperAI超神经

M2RAG 是一个用于评估多模态大语言模型 (MLLMs) 在多模态检索场景下的能力的多模态数据集，旨在评估 MLLMs 在图像描述、多模态问答、事实验证和图像重排序等任务中利用多模态检索文档知识能力。相关论文成果为「Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts」。

该数据集将图像和文本数据相结合，模拟真实场景中的信息检索与生成任务，例如新闻事件分析、视觉问答等，着重评估 MLLMs 在多模态上下文中利用检索文档知识的能力，包括对图像内容的理解、图文关联推理以及事实判断等方面。

M2RAG 多模态评估基准数据集