il y a 5 mois

Ahmed Nassar Andres Marafioti Matteo Omenetti Maksym Lysak Nikolaos Livathinos Christoph Auer Lucas Morin Rafael Teixeira de Lima Yusik Kim A. Said Gurbuz

Résumé

Nous présentons SmolDocling, un modèle vision-langage extrêmement compact conçu pour la conversion de documents en bout à bout. Notre modèle traite de manière exhaustive l'ensemble des pages en générant des DocTags, un nouveau format d'étiquetage universel qui capture tous les éléments d'une page dans leur contexte complet, y compris leur position. Contrairement aux approches existantes qui reposent sur de grands modèles fondamentaux, ou aux solutions ensemblistes basées sur des chaînes de traitement manuellement conçues à partir de plusieurs modèles spécialisés, SmolDocling propose une conversion en bout à bout permettant de capturer avec précision le contenu, la structure et la localisation spatiale des éléments de document, dans un modèle vision-langage de seulement 256 millions de paramètres. SmolDocling montre une performance robuste dans la reproduction correcte de diverses caractéristiques documentaires, telles que les extraits de code, les tableaux, les équations, les graphiques, les listes, etc., sur une large variété de types de documents, y compris les documents commerciaux, les articles scientifiques, les rapports techniques, les brevets et les formulaires — s’inscrivant ainsi bien au-delà de l’accent habituel porté sur les publications scientifiques. En outre, nous proposons de nouveaux jeux de données publiques, nouvellement collectés, pour la reconnaissance de graphiques, de tableaux, d’équations et de code. Les résultats expérimentaux montrent que SmolDocling rivalise avec d'autres modèles vision-langage pouvant être jusqu'à 27 fois plus volumineux, tout en réduisant de manière significative les besoins en calcul. Le modèle est actuellement disponible, et les jeux de données seront bientôt mis à disposition publiquement.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 5 mois

Compréhension De Document

Multimodal

Any-to-Any

Traitement Du Langage Naturel

Multimodal

Tâche

Ahmed Nassar Andres Marafioti Matteo Omenetti Maksym Lysak Nikolaos Livathinos Christoph Auer Lucas Morin Rafael Teixeira de Lima Yusik Kim A. Said Gurbuz

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 5 mois

Compréhension De Document

Multimodal

Any-to-Any

Traitement Du Langage Naturel

Multimodal

Tâche

Ahmed Nassar Andres Marafioti Matteo Omenetti Maksym Lysak Nikolaos Livathinos Christoph Auer Lucas Morin Rafael Teixeira de Lima Yusik Kim A. Said Gurbuz

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

SmolDocling : un modèle vision-langage ultra-compact pour la conversion multimodale en bout-en-bout de documents | Articles | HyperAI

Command Palette

SmolDocling : un modèle vision-langage ultra-compact pour la conversion multimodale en bout-en-bout de documents

Ahmed Nassar Andres Marafioti Matteo Omenetti Maksym Lysak Nikolaos Livathinos Christoph Auer Lucas Morin Rafael Teixeira de Lima Yusik Kim A. Said Gurbuz3 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

SmolDocling : un modèle vision-langage ultra-compact pour la conversion multimodale en bout-en-bout de documents

Ahmed Nassar Andres Marafioti Matteo Omenetti Maksym Lysak Nikolaos Livathinos Christoph Auer Lucas Morin Rafael Teixeira de Lima Yusik Kim A. Said Gurbuz3 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

SmolDocling : un modèle vision-langage ultra-compact pour la conversion multimodale en bout-en-bout de documents

Ahmed Nassar Andres Marafioti Matteo Omenetti Maksym Lysak Nikolaos Livathinos Christoph Auer Lucas Morin Rafael Teixeira de Lima Yusik Kim A. Said Gurbuz3 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Ahmed Nassar Andres Marafioti Matteo Omenetti Maksym Lysak Nikolaos Livathinos Christoph Auer Lucas Morin Rafael Teixeira de Lima Yusik Kim A. Said Gurbuz

Ahmed Nassar Andres Marafioti Matteo Omenetti Maksym Lysak Nikolaos Livathinos Christoph Auer Lucas Morin Rafael Teixeira de Lima Yusik Kim A. Said Gurbuz

Ahmed Nassar Andres Marafioti Matteo Omenetti Maksym Lysak Nikolaos Livathinos Christoph Auer Lucas Morin Rafael Teixeira de Lima Yusik Kim A. Said Gurbuz