HyperAIHyperAI

Command Palette

Search for a command to run...

DocLayout-YOLO : Amélioration de l'analyse de la mise en page des documents grâce à des données synthétiques diverses et à une perception adaptative globale-locale

Zhiyuan Zhao Hengrui Kang Bin Wang Conghui He

Résumé

L'analyse de la mise en page des documents est cruciale pour les systèmes de compréhension des documents du monde réel, mais elle rencontre un compromis difficile entre vitesse et précision : les méthodes multimodales qui exploitent à la fois les caractéristiques textuelles et visuelles atteignent une précision plus élevée mais souffrent d'une latence significative, tandis que les méthodes unimodales basées uniquement sur les caractéristiques visuelles offrent des vitesses de traitement plus rapides au détriment de la précision. Pour résoudre ce dilemme, nous présentons DocLayout-YOLO, une nouvelle approche qui améliore la précision tout en conservant les avantages de vitesse grâce à des optimisations spécifiques aux documents dans les phases de pré-entraînement et de conception du modèle. Pour un pré-entraînement robuste des documents, nous introduisons l'algorithme Mesh-candidate BestFit, qui formule la synthèse de documents comme un problème d'emballage bin bidimensionnel, générant le jeu de données DocSynth-300K à grande échelle et diversifié. Le pré-entraînement sur le jeu de données DocSynth-300K résultant améliore considérablement les performances d'affinage sur différents types de documents. En ce qui concerne l'optimisation du modèle, nous proposons un module récepteur contrôlable Global-to-Local capable de gérer efficacement les variations multiscale des éléments documentaires. De plus, pour valider les performances sur différents types de documents, nous introduisons un benchmark complexe et exigeant nommé DocStructBench. Des expériences approfondies sur des jeux de données downstream montrent que DocLayout-YOLO se distingue par sa vitesse et sa précision. Le code, les données et les modèles sont disponibles à l'adresse suivante : https://github.com/opendatalab/DocLayout-YOLO.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp