초록

최근 대규모 언어 모델의 발전은 텍스트, 음성, 시각 정보를 통합한 통합 프레임워크 내에서 작동하는 다중모달 대규모 언어 모델(Multimodal LLMs, MLLMs)의 개발을 촉진하고 있다. MLLMs는 초기의 좁은 범위, 단일 언어, 특정 작업에 특화된 시스템에서 일반 목적의 지시사항 수행 모델로 진화하면서, 짧은 및 긴 컨텍스트 모두에서 다국어 및 다중모달 능력을 평가하는 것이 핵심 과제가 되고 있다. 그러나 기존의 평가 벤치마크는 이러한 차원을 종합적으로 평가하는 데 한계가 있다. 영어 중심인 경우가 많으며, 일반적으로 하나의 모달리티에만 집중하거나 짧은 형식의 컨텍스트에 의존하거나, 인간 주석이 부족한 경우가 많아 언어, 모달리티, 작업 복잡도에 걸쳐 모델 성능을 포괄적으로 평가하는 데 어려움이 있다. 이러한 격차를 보완하기 위해, 우리는 과학 강연을 기반으로 한 다국어 인간 주석 벤치마크인 MCIF(Multimodal Crosslingual Instruction Following)를 소개한다. MCIF는 짧은 및 긴 입력 모두에서 다국어, 다중모달 환경에서 지시사항 수행 능력을 평가하기 위해 설계된 세계 최초의 다국어 인간 주석 기반 벤치마크이다. MCIF는 음성, 시각, 텍스트의 세 가지 핵심 모달리티와 영어, 독일어, 이탈리아어, 중국어의 네 가지 다양한 언어를 아우르며, MLLMs가 다양한 언어 간 지시사항을 해석하고 이를 다중모달 컨텍스트 정보와 통합하는 능력을 종합적으로 평가할 수 있도록 한다. MCIF는 오픈 연구 촉진 및 MLLMs 개발 진전을 위해 CC-BY 4.0 라이선스 하에 공개된다.

소스 PDF