vor 19 Tagen

Pixtral 12B

Pravesh Agrawal, Szymon Antoniak, Emma Bou Hanna, Devendra Chaplot, Jessica Chudnovsky, Saurabh Garg, Theophile Gervet, Soham Ghosh, Amélie Héliou, Paul Jacob, Albert Q. Jiang, Timothée Lacroix, Guillaume Lample, Diego Las Casas, Thibaut Lavril, Teven Le Scao, Andy Lo, William Marshall, Louis Martin, Arthur Mensch, Pavankumar Muddireddy, Valera Nemychnikova, Marie Pellat, Patrick Von Platen, Nikhil Raghuraman, Baptiste Rozière, Alexandre Sablayrolles, Lucile Saulnier, Romain Sauvestre, Wendy Shang, Roman Soletskyi, Lawrence Stewart, Pierre Stock, Joachim Studnia, Sandeep Subramanian, Sagar Vaze, Thomas Wang

Details der Forschungsarbeit anzeigen

Abstract

Wir stellen Pixtral-12B vor, ein multimodales Sprachmodell mit 12 Milliarden Parametern.Pixtral-12B wurde darauf trainiert, sowohl natürliche Bilder als auch Dokumente zu verstehenund erreicht führende Leistung auf verschiedenen multimodalen Benchmarks, wobei es eine Reihe größerer Modelle übertrifft.Im Gegensatz zu vielen Open-Source-Modellen ist Pixtral zudem ein state-of-the-art-Textmodell für seine Größe und verzichtet nicht auf natürliche Sprachleistung, um in multimodalen Aufgaben herausragend zu sein.Pixtral nutzt einen neu entwickelten Vision-Encoder, der von Grund auf trainiert wurde, wodurch es Bilder in ihrer natürlichen Auflösung und Seitenverhältnis verarbeiten kann.Dies bietet den Nutzern Flexibilität hinsichtlich der Anzahl an Tokens, die zur Verarbeitung eines Bildes verwendet werden.Pixtral kann zudem beliebig viele Bilder in seinem langen Kontextfenster von 128.000 Tokens verarbeiten.Pixtral 12B übertrifft erheblich andere Open-Source-Modelle ähnlicher Größe (Llama-3.2 11B und Qwen-2-VL 7B)und schlägt auch deutlich größere Open-Source-Modelle wie Llama-3.2 90B, während es siebenmal kleiner ist.Darüber hinaus stellen wir eine Open-Source-Benchmark-Sammlung, MM-MT-Bench, zur Bewertung von Vision-Sprache-Modellen in praktischen Szenarien, bereit und liefern detaillierte Analysen sowie Code für standardisierte Bewertungsprotokolle für multimodale LLMs.Pixtral-12B wird unter der Apache-2.0-Lizenz veröffentlicht.