M2RAG 다중 모드 평가 벤치마크 데이터 세트
M2RAG는 다중 모드 검색 시나리오에서 다중 모드 대규모 언어 모델(MLLM)의 성능을 평가하기 위한 다중 모드 데이터 세트입니다. 이 연구는 MLLM이 이미지 설명, 다중 모드 질의응답, 사실 검증, 이미지 재순위 지정 등의 작업에서 다중 모드 검색 문서 지식을 활용하는 능력을 평가하는 것을 목표로 합니다. 관련 논문 결과는 다음과 같습니다.다중 모달 컨텍스트에서 검색 증강 생성 벤치마킹".
이 데이터 세트는 이미지와 텍스트 데이터를 결합하여 뉴스 이벤트 분석 및 시각적 질의응답과 같은 실제 시나리오에서의 정보 검색 및 생성 작업을 시뮬레이션합니다. 이 연구는 MLLM이 이미지 콘텐츠 이해, 이미지-텍스트 연관 추론, 사실 판단을 포함한 다중 모드 맥락에서 검색된 문서 지식을 활용하는 능력을 평가하는 데 중점을 둡니다.
