19일 전

픽스트랄 12B

Pravesh Agrawal, Szymon Antoniak, Emma Bou Hanna, Devendra Chaplot, Jessica Chudnovsky, Saurabh Garg, Theophile Gervet, Soham Ghosh, Amélie Héliou, Paul Jacob, Albert Q. Jiang, Timothée Lacroix, Guillaume Lample, Diego Las Casas, Thibaut Lavril, Teven Le Scao, Andy Lo, William Marshall, Louis Martin, Arthur Mensch, Pavankumar Muddireddy, Valera Nemychnikova, Marie Pellat, Patrick Von Platen, Nikhil Raghuraman, Baptiste Rozière, Alexandre Sablayrolles, Lucile Saulnier, Romain Sauvestre, Wendy Shang, Roman Soletskyi, Lawrence Stewart, Pierre Stock, Joachim Studnia, Sandeep Subramanian, Sagar Vaze, Thomas Wang
픽스트랄 12B
초록

우리는 120억 파라미터를 갖춘 다중모달 언어 모델인 Pixtral-12B를 소개합니다.Pixtral-12B는 자연 이미지와 문서를 동시에 이해할 수 있도록 훈련되었으며, 다양한 다중모달 벤치마크에서 최상의 성능을 기록하며, 크기가 더 큰 많은 모델들을 뛰어넘었습니다. 많은 오픈소스 모델과 달리, Pixtral은 그 크기에 비해 최신 수준의 텍스트 처리 능력을 갖추고 있으며, 다중모달 작업에서 뛰어난 성능을 발휘하기 위해 자연어 처리 성능을 희생하지 않습니다. Pixtral은 처음부터 훈련된 새로운 비전 인코더를 사용하여, 이미지를 원본 해상도와 종횡비 그대로 입력할 수 있게 해줍니다. 이로 인해 이미지 처리에 사용할 토큰 수에 대한 사용자에게 유연성을 제공합니다. 또한, Pixtral은 128K 토큰의 긴 컨텍스트 창 내에서 임의의 수의 이미지를 처리할 수 있습니다. Pixtral-12B는 크기가 유사한 다른 오픈소스 모델들(Llama-3.2 11B 및 Qwen-2-VL 7B)보다 훨씬 뛰어난 성능을 보이며, 크기가 훨씬 큰 오픈소스 모델인 Llama-3.2 90B보다도 우수하면서도 크기는 7배 작습니다. 또한, 실용적 상황에서 비전-언어 모델을 평가하기 위한 오픈소스 벤치마크인 MM-MT-Bench를 추가로 기여하였으며, 다중모달 대규모 언어 모델(Multimodal LLMs)에 대한 표준화된 평가 프로토콜에 대한 상세한 분석과 코드를 공개하였습니다. Pixtral-12B는 Apache 2.0 라이선스 하에 공개됩니다.