Pixtral 12B

Wir stellen Pixtral-12B vor, ein multimodales Sprachmodell mit 12 Milliarden Parametern.Pixtral-12B wurde darauf trainiert, sowohl natürliche Bilder als auch Dokumente zu verstehenund erreicht führende Leistung auf verschiedenen multimodalen Benchmarks, wobei es eine Reihe größerer Modelle übertrifft.Im Gegensatz zu vielen Open-Source-Modellen ist Pixtral zudem ein state-of-the-art-Textmodell für seine Größe und verzichtet nicht auf natürliche Sprachleistung, um in multimodalen Aufgaben herausragend zu sein.Pixtral nutzt einen neu entwickelten Vision-Encoder, der von Grund auf trainiert wurde, wodurch es Bilder in ihrer natürlichen Auflösung und Seitenverhältnis verarbeiten kann.Dies bietet den Nutzern Flexibilität hinsichtlich der Anzahl an Tokens, die zur Verarbeitung eines Bildes verwendet werden.Pixtral kann zudem beliebig viele Bilder in seinem langen Kontextfenster von 128.000 Tokens verarbeiten.Pixtral 12B übertrifft erheblich andere Open-Source-Modelle ähnlicher Größe (Llama-3.2 11B und Qwen-2-VL 7B)und schlägt auch deutlich größere Open-Source-Modelle wie Llama-3.2 90B, während es siebenmal kleiner ist.Darüber hinaus stellen wir eine Open-Source-Benchmark-Sammlung, MM-MT-Bench, zur Bewertung von Vision-Sprache-Modellen in praktischen Szenarien, bereit und liefern detaillierte Analysen sowie Code für standardisierte Bewertungsprotokolle für multimodale LLMs.Pixtral-12B wird unter der Apache-2.0-Lizenz veröffentlicht.