HyperAIHyperAI

Command Palette

Search for a command to run...

CED : Extraction de Catalogues à partir de Documents

Tong Zhu Guoliang Zhang Zechang Li Zijian Yu Junfei Ren Mengsong Wu Zhefeng Wang Baoxing Huai Pingfu Chao Wenliang Chen

Résumé

L'extraction d'informations phrase par phrase à partir de documents longs est une tâche épuisante et sujette aux erreurs. Les sommaires, en tant qu'indicateurs de la structure du document, divisent naturellement les documents en segments et fournissent des sémantiques en cascade informatives, ce qui peut aider à réduire l'espace de recherche. Malgré leur utilité, il est difficile d'extraire les sommaires sans l'aide de connaissances externes. Pour les documents qui suivent un modèle spécifique, les expressions régulières sont pratiques pour extraire les sommaires. Cependant, les heuristiques conçues manuellement ne sont pas applicables lors du traitement de documents provenant de différentes sources avec des formats variés. Pour résoudre ce problème, nous avons construit un grand corpus annoté manuellement, qui constitue le premier ensemble de données pour la tâche d'Extraction de Sommaires à partir de Documents (CED). Sur la base de ce corpus, nous proposons un cadre basé sur des transitions pour analyser les documents en arbres de sommaires. Les résultats expérimentaux montrent que notre méthode proposée surpassent les systèmes baselines et démontrent une bonne capacité de transfert. Nous croyons que la tâche CED pourrait combler le fossé entre les segments bruts de texte et les tâches d'extraction d'informations sur des documents extrêmement longs. Les données et le code sont disponibles à l'adresse \url{https://github.com/Spico197/CatalogExtraction}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp