Command Palette
Search for a command to run...
MCIF: Multimodales, mehrsprachiges Benchmark für Anweisungsfolge aus wissenschaftlichen Vorträgen
MCIF: Multimodales, mehrsprachiges Benchmark für Anweisungsfolge aus wissenschaftlichen Vorträgen
Sara Papi Maike Züfle Marco Gaido Beatrice Savoldi Danni Liu Ioannis Douros Luisa Bentivogli Jan Niehues
Abstract
Neue Fortschritte bei großen Sprachmodellen haben die Entwicklung multimodaler Sprachmodelle (MLLMs) vorangetrieben, die Text, Sprache und Vision in einheitlichen Rahmenwerken integrieren. Während MLLMs sich von spezialisierten, einprägsamen und sprachlich eingeschränkten Systemen zu allgemein verwendbaren, anweisungsfolgenden Modellen entwickeln, stellt sich eine zentrale Herausforderung in der Bewertung ihrer multilingualen und multimodalen Fähigkeiten sowohl für kurze als auch für längere Kontexte dar. Bisherige Benchmark-Tests erfüllen diese Dimensionen jedoch nicht umfassend: Sie sind oft auf Englisch beschränkt, konzentrieren sich meist nur auf eine einzige Modalität gleichzeitig, basieren auf kurzen Kontexten oder fehlen an menschlicher Annotation – was eine umfassende Beurteilung der Modellleistung über Sprachen, Modalitäten und Aufgabenkomplexität erschwert. Um diese Lücken zu schließen, stellen wir MCIF (Multimodal Crosslingual Instruction Following) vor, den ersten multilingualen, menschlich annotierten Benchmark, der auf wissenschaftlichen Vorträgen basiert und speziell zur Bewertung der Anweisungsfolgefähigkeit in crosslingualen, multimodalen Umgebungen sowohl für kurze als auch für längere Eingaben entwickelt wurde. MCIF umfasst drei zentrale Modalitäten – Sprache, Vision und Text – sowie vier unterschiedliche Sprachen (Englisch, Deutsch, Italienisch und Chinesisch), wodurch eine umfassende Bewertung der Fähigkeit von MLLMs ermöglicht wird, Anweisungen in verschiedenen Sprachen zu interpretieren und diese mit multimodalen Kontextinformationen zu verbinden. MCIF wird unter der CC-BY 4.0-Lizenz veröffentlicht, um offene Forschung und den Fortschritt in der Entwicklung von MLLMs zu fördern.