HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

olmOCR : Déverrouiller des trillions de tokens dans les fichiers PDF à l'aide de modèles vision-langage

{Luca Soldaini Kyle Lo Christopher Wilhelm Aman Rangapur Daniel Lin Regan Huff Jason Dunkelberger Jon Borchardt Jake Poznanski}

olmOCR : Déverrouiller des trillions de tokens dans les fichiers PDF à l'aide de modèles vision-langage

Résumé

Les documents PDF ont le potentiel de fournir des trillions de tokens nouveaux et de haute qualité pour l'entraînement des modèles linguistiques. Toutefois, ces documents se présentent sous une grande diversité de types, formats et mises en page visuelles, ce qui constitue un défi lorsqu’il s’agit d’extraire et de représenter fidèlement leur contenu sous-jacent pour une utilisation par les modèles linguistiques. Les outils open source traditionnels produisent souvent des extraits de qualité inférieure par rapport aux modèles linguistiques à vision (VLM), mais la dépendance aux meilleurs VLM entraîne des coûts prohibitifs (par exemple, plus de 6 240 USD par million de pages PDF pour GPT-4o) ou devient impossible si les PDF ne peuvent être envoyés à des API propriétaires. Nous présentons olmOCR, un outil open source permettant de traiter les PDFs afin d’en extraire un texte brut propre, linéarisé et organisé dans l’ordre naturel de lecture, tout en préservant les éléments structurés tels que les sections, les tableaux, les listes, les équations, etc. Notre outil repose sur un modèle linguistique à vision (VLM) fine-tuné de 7 milliards de paramètres, entraîné sur olmOCR-mix-0225, un échantillon de 260 000 pages provenant de plus de 100 000 PDF récupérés, aux caractéristiques variées incluant des graphiques, du texte manuscrit et des numérisations de mauvaise qualité. olmOCR est optimisé pour un traitement par lots à grande échelle, capable de s’adapter flexiblement à différentes configurations matériels, et permet de convertir un million de pages PDF pour seulement 176 USD. Afin de faciliter la comparaison avec les systèmes existants, nous introduisons également olmOCR-Bench, un ensemble soigneusement sélectionné de 1 400 PDF couvrant de nombreux types de contenu encore difficiles même pour les meilleurs outils et VLM, notamment des formules, des tableaux, des polices très petites, des numérisations anciennes, etc. Nous constatons que olmOCR surpasse même les meilleurs VLM, y compris GPT-4o, Gemini Flash 2 et Qwen-2.5-VL. Nous mettons entièrement à disposition tous les composants d’olmOCR : le modèle VLM fine-tuné, le code d’entraînement et les données, une pipeline d’inférence efficace prenant en charge les backends vLLM et SGLang, ainsi que le benchmark olmOCR-Bench.

Dépôts de code

allenai/olmocr
Officiel
pytorch
Mentionné dans GitHub

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp