Command Palette
Search for a command to run...
SmolDocling : un modèle vision-langage ultra-compact pour la conversion multimodale en bout-en-bout de documents

Résumé
Nous présentons SmolDocling, un modèle vision-langage extrêmement compact conçu pour la conversion de documents en bout à bout. Notre modèle traite de manière exhaustive l'ensemble des pages en générant des DocTags, un nouveau format d'étiquetage universel qui capture tous les éléments d'une page dans leur contexte complet, y compris leur position. Contrairement aux approches existantes qui reposent sur de grands modèles fondamentaux, ou aux solutions ensemblistes basées sur des chaînes de traitement manuellement conçues à partir de plusieurs modèles spécialisés, SmolDocling propose une conversion en bout à bout permettant de capturer avec précision le contenu, la structure et la localisation spatiale des éléments de document, dans un modèle vision-langage de seulement 256 millions de paramètres. SmolDocling montre une performance robuste dans la reproduction correcte de diverses caractéristiques documentaires, telles que les extraits de code, les tableaux, les équations, les graphiques, les listes, etc., sur une large variété de types de documents, y compris les documents commerciaux, les articles scientifiques, les rapports techniques, les brevets et les formulaires — s’inscrivant ainsi bien au-delà de l’accent habituel porté sur les publications scientifiques. En outre, nous proposons de nouveaux jeux de données publiques, nouvellement collectés, pour la reconnaissance de graphiques, de tableaux, d’équations et de code. Les résultats expérimentaux montrent que SmolDocling rivalise avec d'autres modèles vision-langage pouvant être jusqu'à 27 fois plus volumineux, tout en réduisant de manière significative les besoins en calcul. Le modèle est actuellement disponible, et les jeux de données seront bientôt mis à disposition publiquement.
Dépôts de code
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.