HyperAIHyperAI

Command Palette

Search for a command to run...

VSR : Un cadre unifié pour l'analyse de la mise en page des documents combinant Vision, Sémantique et Relations

Peng Zhang Can Li Liang Qiao Zhanzhan Cheng Shiliang Pu Yi Niu Fei Wu

Résumé

L’analyse de disposition des documents est essentielle pour comprendre la structure des documents. Sur cette tâche, la vision, les aspects sémantiques des documents ainsi que les relations entre les composants de disposition contribuent au processus d’interprétation. Bien que de nombreuses approches aient été proposées pour exploiter ces informations, leurs résultats restent insatisfaisants. Les méthodes basées sur le traitement du langage naturel (NLP) modélisent l’analyse de disposition comme une tâche d’étiquetage de séquence, mais présentent des capacités limitées en modélisation de la disposition. Les méthodes basées sur la vision par ordinateur (CV) la modélisent comme une tâche de détection ou de segmentation, mais souffrent de limitations liées à une fusion modale inefficace et au manque de modélisation des relations entre les composants. Pour surmonter ces limites, nous proposons un cadre unifié, VSR, pour l’analyse de disposition des documents, intégrant de manière cohérente vision, sémantique et relations. VSR est compatible avec à la fois les approches NLP et CV. Plus précisément, nous introduisons d’abord la vision à partir de l’image du document et la sémantique à partir de cartes d’encodage textuel. Ensuite, des caractéristiques visuelles et sémantiques spécifiques aux modalités sont extraites à l’aide d’un réseau à deux voies, puis fusionnées de manière adaptative afin d’exploiter pleinement les informations complémentaires. Enfin, à partir de candidats de composants, un module de relations basé sur un réseau de graphes est intégré pour modéliser les interactions entre les composants et produire les résultats finaux. Sur trois benchmarks populaires, VSR dépasse largement les modèles précédents. Le code sera bientôt rendu public.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp