DocLayout-YOLO : Amélioration de l'analyse de la mise en page des documents grâce à des données synthétiques diverses et à une perception adaptative globale-locale

L'analyse de la mise en page des documents est cruciale pour les systèmes de compréhension des documents du monde réel, mais elle rencontre un compromis difficile entre vitesse et précision : les méthodes multimodales qui exploitent à la fois les caractéristiques textuelles et visuelles atteignent une précision plus élevée mais souffrent d'une latence significative, tandis que les méthodes unimodales basées uniquement sur les caractéristiques visuelles offrent des vitesses de traitement plus rapides au détriment de la précision. Pour résoudre ce dilemme, nous présentons DocLayout-YOLO, une nouvelle approche qui améliore la précision tout en conservant les avantages de vitesse grâce à des optimisations spécifiques aux documents dans les phases de pré-entraînement et de conception du modèle. Pour un pré-entraînement robuste des documents, nous introduisons l'algorithme Mesh-candidate BestFit, qui formule la synthèse de documents comme un problème d'emballage bin bidimensionnel, générant le jeu de données DocSynth-300K à grande échelle et diversifié. Le pré-entraînement sur le jeu de données DocSynth-300K résultant améliore considérablement les performances d'affinage sur différents types de documents. En ce qui concerne l'optimisation du modèle, nous proposons un module récepteur contrôlable Global-to-Local capable de gérer efficacement les variations multiscale des éléments documentaires. De plus, pour valider les performances sur différents types de documents, nous introduisons un benchmark complexe et exigeant nommé DocStructBench. Des expériences approfondies sur des jeux de données downstream montrent que DocLayout-YOLO se distingue par sa vitesse et sa précision. Le code, les données et les modèles sont disponibles à l'adresse suivante : https://github.com/opendatalab/DocLayout-YOLO.