il y a 8 mois

Résumé

L'analyse de la mise en page des documents est cruciale pour les systèmes de compréhension des documents du monde réel, mais elle rencontre un compromis difficile entre vitesse et précision : les méthodes multimodales qui exploitent à la fois les caractéristiques textuelles et visuelles atteignent une précision plus élevée mais souffrent d'une latence significative, tandis que les méthodes unimodales basées uniquement sur les caractéristiques visuelles offrent des vitesses de traitement plus rapides au détriment de la précision. Pour résoudre ce dilemme, nous présentons DocLayout-YOLO, une nouvelle approche qui améliore la précision tout en conservant les avantages de vitesse grâce à des optimisations spécifiques aux documents dans les phases de pré-entraînement et de conception du modèle. Pour un pré-entraînement robuste des documents, nous introduisons l'algorithme Mesh-candidate BestFit, qui formule la synthèse de documents comme un problème d'emballage bin bidimensionnel, générant le jeu de données DocSynth-300K à grande échelle et diversifié. Le pré-entraînement sur le jeu de données DocSynth-300K résultant améliore considérablement les performances d'affinage sur différents types de documents. En ce qui concerne l'optimisation du modèle, nous proposons un module récepteur contrôlable Global-to-Local capable de gérer efficacement les variations multiscale des éléments documentaires. De plus, pour valider les performances sur différents types de documents, nous introduisons un benchmark complexe et exigeant nommé DocStructBench. Des expériences approfondies sur des jeux de données downstream montrent que DocLayout-YOLO se distingue par sa vitesse et sa précision. Le code, les données et les modèles sont disponibles à l'adresse suivante : https://github.com/opendatalab/DocLayout-YOLO.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Détection D'objets

Multimodal

Compréhension De Document

Traitement Du Langage Naturel

Multimodal

Vision Par Ordinateur

Tâche

Zhiyuan Zhao Hengrui Kang Bin Wang Conghui He

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Détection D'objets

Multimodal

Compréhension De Document

Traitement Du Langage Naturel

Multimodal

Vision Par Ordinateur

Tâche

Zhiyuan Zhao Hengrui Kang Bin Wang Conghui He

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

DocLayout-YOLO : Amélioration de l'analyse de la mise en page des documents grâce à des données synthétiques diverses et à une perception adaptative globale-locale | Articles | HyperAI

Command Palette

DocLayout-YOLO : Amélioration de l'analyse de la mise en page des documents grâce à des données synthétiques diverses et à une perception adaptative globale-locale

Zhiyuan Zhao Hengrui Kang Bin Wang Conghui He

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

DocLayout-YOLO : Amélioration de l'analyse de la mise en page des documents grâce à des données synthétiques diverses et à une perception adaptative globale-locale

Zhiyuan Zhao Hengrui Kang Bin Wang Conghui He

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

DocLayout-YOLO : Amélioration de l'analyse de la mise en page des documents grâce à des données synthétiques diverses et à une perception adaptative globale-locale

Zhiyuan Zhao Hengrui Kang Bin Wang Conghui He

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters