il y a 6 mois

Résumé

L’analyse de disposition des documents est essentielle pour comprendre la structure des documents. Sur cette tâche, la vision, les aspects sémantiques des documents ainsi que les relations entre les composants de disposition contribuent au processus d’interprétation. Bien que de nombreuses approches aient été proposées pour exploiter ces informations, leurs résultats restent insatisfaisants. Les méthodes basées sur le traitement du langage naturel (NLP) modélisent l’analyse de disposition comme une tâche d’étiquetage de séquence, mais présentent des capacités limitées en modélisation de la disposition. Les méthodes basées sur la vision par ordinateur (CV) la modélisent comme une tâche de détection ou de segmentation, mais souffrent de limitations liées à une fusion modale inefficace et au manque de modélisation des relations entre les composants. Pour surmonter ces limites, nous proposons un cadre unifié, VSR, pour l’analyse de disposition des documents, intégrant de manière cohérente vision, sémantique et relations. VSR est compatible avec à la fois les approches NLP et CV. Plus précisément, nous introduisons d’abord la vision à partir de l’image du document et la sémantique à partir de cartes d’encodage textuel. Ensuite, des caractéristiques visuelles et sémantiques spécifiques aux modalités sont extraites à l’aide d’un réseau à deux voies, puis fusionnées de manière adaptative afin d’exploiter pleinement les informations complémentaires. Enfin, à partir de candidats de composants, un module de relations basé sur un réseau de graphes est intégré pour modéliser les interactions entre les composants et produire les résultats finaux. Sur trois benchmarks populaires, VSR dépasse largement les modèles précédents. Le code sera bientôt rendu public.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Vision Par Ordinateur

Détection D'objets

Multimodal

Vision Par Ordinateur

Tâche

Peng Zhang Can Li Liang Qiao Zhanzhan Cheng Shiliang Pu Yi Niu Fei Wu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Vision Par Ordinateur

Détection D'objets

Multimodal

Vision Par Ordinateur

Tâche

Peng Zhang Can Li Liang Qiao Zhanzhan Cheng Shiliang Pu Yi Niu Fei Wu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

VSR : Un cadre unifié pour l'analyse de la mise en page des documents combinant Vision, Sémantique et Relations | Articles | HyperAI

Command Palette

VSR : Un cadre unifié pour l'analyse de la mise en page des documents combinant Vision, Sémantique et Relations

Peng Zhang Can Li Liang Qiao Zhanzhan Cheng Shiliang Pu Yi Niu Fei Wu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VSR : Un cadre unifié pour l'analyse de la mise en page des documents combinant Vision, Sémantique et Relations

Peng Zhang Can Li Liang Qiao Zhanzhan Cheng Shiliang Pu Yi Niu Fei Wu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VSR : Un cadre unifié pour l'analyse de la mise en page des documents combinant Vision, Sémantique et Relations

Peng Zhang Can Li Liang Qiao Zhanzhan Cheng Shiliang Pu Yi Niu Fei Wu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters