Command Palette
Search for a command to run...
olmOCR : Déverrouiller des trillions de tokens dans les fichiers PDF à l'aide de modèles vision-langage
{Luca Soldaini Kyle Lo Christopher Wilhelm Aman Rangapur Daniel Lin Regan Huff Jason Dunkelberger Jon Borchardt Jake Poznanski}

Résumé
Les documents PDF ont le potentiel de fournir des trillions de tokens nouveaux et de haute qualité pour l'entraînement des modèles linguistiques. Toutefois, ces documents se présentent sous une grande diversité de types, formats et mises en page visuelles, ce qui constitue un défi lorsqu’il s’agit d’extraire et de représenter fidèlement leur contenu sous-jacent pour une utilisation par les modèles linguistiques. Les outils open source traditionnels produisent souvent des extraits de qualité inférieure par rapport aux modèles linguistiques à vision (VLM), mais la dépendance aux meilleurs VLM entraîne des coûts prohibitifs (par exemple, plus de 6 240 USD par million de pages PDF pour GPT-4o) ou devient impossible si les PDF ne peuvent être envoyés à des API propriétaires. Nous présentons olmOCR, un outil open source permettant de traiter les PDFs afin d’en extraire un texte brut propre, linéarisé et organisé dans l’ordre naturel de lecture, tout en préservant les éléments structurés tels que les sections, les tableaux, les listes, les équations, etc. Notre outil repose sur un modèle linguistique à vision (VLM) fine-tuné de 7 milliards de paramètres, entraîné sur olmOCR-mix-0225, un échantillon de 260 000 pages provenant de plus de 100 000 PDF récupérés, aux caractéristiques variées incluant des graphiques, du texte manuscrit et des numérisations de mauvaise qualité. olmOCR est optimisé pour un traitement par lots à grande échelle, capable de s’adapter flexiblement à différentes configurations matériels, et permet de convertir un million de pages PDF pour seulement 176 USD. Afin de faciliter la comparaison avec les systèmes existants, nous introduisons également olmOCR-Bench, un ensemble soigneusement sélectionné de 1 400 PDF couvrant de nombreux types de contenu encore difficiles même pour les meilleurs outils et VLM, notamment des formules, des tableaux, des polices très petites, des numérisations anciennes, etc. Nous constatons que olmOCR surpasse même les meilleurs VLM, y compris GPT-4o, Gemini Flash 2 et Qwen-2.5-VL. Nous mettons entièrement à disposition tous les composants d’olmOCR : le modèle VLM fine-tuné, le code d’entraînement et les données, une pipeline d’inférence efficace prenant en charge les backends vLLM et SGLang, ainsi que le benchmark olmOCR-Bench.
Dépôts de code
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.