HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

SmolDocling : un modèle vision-langage ultra-compact pour la conversion multimodale en bout-en-bout de documents

SmolDocling : un modèle vision-langage ultra-compact pour la conversion multimodale en bout-en-bout de documents

Résumé

Nous présentons SmolDocling, un modèle vision-langage extrêmement compact conçu pour la conversion de documents en bout à bout. Notre modèle traite de manière exhaustive l'ensemble des pages en générant des DocTags, un nouveau format d'étiquetage universel qui capture tous les éléments d'une page dans leur contexte complet, y compris leur position. Contrairement aux approches existantes qui reposent sur de grands modèles fondamentaux, ou aux solutions ensemblistes basées sur des chaînes de traitement manuellement conçues à partir de plusieurs modèles spécialisés, SmolDocling propose une conversion en bout à bout permettant de capturer avec précision le contenu, la structure et la localisation spatiale des éléments de document, dans un modèle vision-langage de seulement 256 millions de paramètres. SmolDocling montre une performance robuste dans la reproduction correcte de diverses caractéristiques documentaires, telles que les extraits de code, les tableaux, les équations, les graphiques, les listes, etc., sur une large variété de types de documents, y compris les documents commerciaux, les articles scientifiques, les rapports techniques, les brevets et les formulaires — s’inscrivant ainsi bien au-delà de l’accent habituel porté sur les publications scientifiques. En outre, nous proposons de nouveaux jeux de données publiques, nouvellement collectés, pour la reconnaissance de graphiques, de tableaux, d’équations et de code. Les résultats expérimentaux montrent que SmolDocling rivalise avec d'autres modèles vision-langage pouvant être jusqu'à 27 fois plus volumineux, tout en réduisant de manière significative les besoins en calcul. Le modèle est actuellement disponible, et les jeux de données seront bientôt mis à disposition publiquement.

Dépôts de code

docling-project/docling
Mentionné dans GitHub
DS4SD/docling
pytorch
Mentionné dans GitHub

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
SmolDocling : un modèle vision-langage ultra-compact pour la conversion multimodale en bout-en-bout de documents | Articles de recherche | HyperAI