HyperAIHyperAI
il y a 2 mois

CED : Extraction de Catalogues à partir de Documents

Tong Zhu; Guoliang Zhang; Zechang Li; Zijian Yu; Junfei Ren; Mengsong Wu; Zhefeng Wang; Baoxing Huai; Pingfu Chao; Wenliang Chen
CED : Extraction de Catalogues à partir de Documents
Résumé

L'extraction d'informations phrase par phrase à partir de documents longs est une tâche épuisante et sujette aux erreurs. Les sommaires, en tant qu'indicateurs de la structure du document, divisent naturellement les documents en segments et fournissent des sémantiques en cascade informatives, ce qui peut aider à réduire l'espace de recherche. Malgré leur utilité, il est difficile d'extraire les sommaires sans l'aide de connaissances externes. Pour les documents qui suivent un modèle spécifique, les expressions régulières sont pratiques pour extraire les sommaires. Cependant, les heuristiques conçues manuellement ne sont pas applicables lors du traitement de documents provenant de différentes sources avec des formats variés. Pour résoudre ce problème, nous avons construit un grand corpus annoté manuellement, qui constitue le premier ensemble de données pour la tâche d'Extraction de Sommaires à partir de Documents (CED). Sur la base de ce corpus, nous proposons un cadre basé sur des transitions pour analyser les documents en arbres de sommaires. Les résultats expérimentaux montrent que notre méthode proposée surpassent les systèmes baselines et démontrent une bonne capacité de transfert. Nous croyons que la tâche CED pourrait combler le fossé entre les segments bruts de texte et les tâches d'extraction d'informations sur des documents extrêmement longs. Les données et le code sont disponibles à l'adresse \url{https://github.com/Spico197/CatalogExtraction}.

CED : Extraction de Catalogues à partir de Documents | Articles de recherche récents | HyperAI