Command Palette
Search for a command to run...
MCIF : Benchmark de suivi d'instructions multimodal et multilingue issu de conférences scientifiques
MCIF : Benchmark de suivi d'instructions multimodal et multilingue issu de conférences scientifiques
Sara Papi Maike Züfle Marco Gaido Beatrice Savoldi Danni Liu Ioannis Douros Luisa Bentivogli Jan Niehues
Abstract
Les avancées récentes dans les grands modèles linguistiques ont stimulé le développement de modèles linguistiques multimodaux (MLLMs), intégrant le texte, la parole et la vision dans des cadres unifiés. Alors que les MLLMs évoluent de systèmes spécialisés, monolingues et à tâches spécifiques vers des modèles polyvalents capables de suivre des instructions, une frontière clé réside dans l’évaluation de leurs capacités multilingues et multimodales, tant sur des contextes courts que longs. Toutefois, les benchmarks existants peinent à évaluer conjointement ces dimensions : ils sont souvent limités à l’anglais, se concentrent principalement sur une seule modalité à la fois, reposent sur des contextes courts, ou manquent d’annotations humaines — ce qui entrave une évaluation complète de la performance des modèles selon les langues, les modalités et la complexité des tâches. Pour combler ces lacunes, nous introduisons MCIF (Multimodal Crosslingual Instruction Following), le premier benchmark multilingue annoté par des humains fondé sur des conférences scientifiques, conçu pour évaluer le suivi d'instructions dans des contextes multilingues et multimodaux, tant pour des entrées courtes que longues. MCIF couvre trois modalités fondamentales — parole, vision et texte — et quatre langues diverses (anglais, allemand, italien et chinois), permettant ainsi une évaluation complète des capacités des MLLMs à interpréter des instructions dans différentes langues et à les combiner avec des informations contextuelles multimodales. MCIF est mis à disposition sous licence CC-BY 4.0 afin de favoriser la recherche ouverte et l’avancement du développement des MLLMs.