il y a 5 mois

Luca Soldaini Kyle Lo Christopher Wilhelm Aman Rangapur Daniel Lin Regan Huff Jason Dunkelberger Jon Borchardt Jake Poznanski

Résumé

Les documents PDF ont le potentiel de fournir des trillions de tokens nouveaux et de haute qualité pour l'entraînement des modèles linguistiques. Toutefois, ces documents se présentent sous une grande diversité de types, formats et mises en page visuelles, ce qui constitue un défi lorsqu’il s’agit d’extraire et de représenter fidèlement leur contenu sous-jacent pour une utilisation par les modèles linguistiques. Les outils open source traditionnels produisent souvent des extraits de qualité inférieure par rapport aux modèles linguistiques à vision (VLM), mais la dépendance aux meilleurs VLM entraîne des coûts prohibitifs (par exemple, plus de 6 240 USD par million de pages PDF pour GPT-4o) ou devient impossible si les PDF ne peuvent être envoyés à des API propriétaires. Nous présentons olmOCR, un outil open source permettant de traiter les PDFs afin d’en extraire un texte brut propre, linéarisé et organisé dans l’ordre naturel de lecture, tout en préservant les éléments structurés tels que les sections, les tableaux, les listes, les équations, etc. Notre outil repose sur un modèle linguistique à vision (VLM) fine-tuné de 7 milliards de paramètres, entraîné sur olmOCR-mix-0225, un échantillon de 260 000 pages provenant de plus de 100 000 PDF récupérés, aux caractéristiques variées incluant des graphiques, du texte manuscrit et des numérisations de mauvaise qualité. olmOCR est optimisé pour un traitement par lots à grande échelle, capable de s’adapter flexiblement à différentes configurations matériels, et permet de convertir un million de pages PDF pour seulement 176 USD. Afin de faciliter la comparaison avec les systèmes existants, nous introduisons également olmOCR-Bench, un ensemble soigneusement sélectionné de 1 400 PDF couvrant de nombreux types de contenu encore difficiles même pour les meilleurs outils et VLM, notamment des formules, des tableaux, des polices très petites, des numérisations anciennes, etc. Nous constatons que olmOCR surpasse même les meilleurs VLM, y compris GPT-4o, Gemini Flash 2 et Qwen-2.5-VL. Nous mettons entièrement à disposition tous les composants d’olmOCR : le modèle VLM fine-tuné, le code d’entraînement et les données, une pipeline d’inférence efficace prenant en charge les backends vLLM et SGLang, ainsi que le benchmark olmOCR-Bench.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 5 mois

Compréhension De Document

Multimodal

LLM

Approche/Framework

Traitement Du Langage Naturel

Multimodal

Tâche

Luca Soldaini Kyle Lo Christopher Wilhelm Aman Rangapur Daniel Lin Regan Huff Jason Dunkelberger Jon Borchardt Jake Poznanski

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 5 mois

Compréhension De Document

Multimodal

LLM

Approche/Framework

Traitement Du Langage Naturel

Multimodal

Tâche

Luca Soldaini Kyle Lo Christopher Wilhelm Aman Rangapur Daniel Lin Regan Huff Jason Dunkelberger Jon Borchardt Jake Poznanski

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

olmOCR : Déverrouiller des trillions de tokens dans les fichiers PDF à l'aide de modèles vision-langage

Luca Soldaini Kyle Lo Christopher Wilhelm Aman Rangapur Daniel Lin Regan Huff Jason Dunkelberger Jon Borchardt Jake Poznanski

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

olmOCR : Déverrouiller des trillions de tokens dans les fichiers PDF à l'aide de modèles vision-langage

Luca Soldaini Kyle Lo Christopher Wilhelm Aman Rangapur Daniel Lin Regan Huff Jason Dunkelberger Jon Borchardt Jake Poznanski

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

olmOCR : Déverrouiller des trillions de tokens dans les fichiers PDF à l'aide de modèles vision-langage

Luca Soldaini Kyle Lo Christopher Wilhelm Aman Rangapur Daniel Lin Regan Huff Jason Dunkelberger Jon Borchardt Jake Poznanski

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters