HyperAIHyperAI
il y a 17 jours

LeNER-Br : un jeu de données pour la reconnaissance d'entités nommées dans les textes juridiques brésiliens

{Teófilo E. de Campos, Samuel Couto, Pedro H. Luz de Araujo, Paulo Bermejo, Matheus Stauffer, Renato R. R. de Oliveira}
Résumé

Les systèmes de reconnaissance d'entités nommées possèdent un potentiel non exploité pour extraire des informations à partir de documents juridiques, ce qui pourrait améliorer les processus de récupération d'information et de prise de décision. Dans cet article, nous présentons un jeu de données dédié à la reconnaissance d'entités nommées dans les documents juridiques brésiliens. Contrairement aux autres jeux de données en portugais, celui-ci est constitué exclusivement de documents juridiques. En plus des étiquettes relatives aux personnes, aux lieux, aux entités temporelles et aux organisations, ce jeu de données inclut des étiquettes spécifiques pour les entités législatives et les affaires juridiques. Pour établir une série de résultats de référence, nous avons d'abord mené des expériences sur un autre jeu de données portugaise : Paramopama. Cette évaluation démontre que le modèle LSTM-CRF obtient des résultats significativement meilleurs que ceux rapportés précédemment. Nous avons ensuite réentraîné le modèle LSTM-CRF sur notre jeu de données, obtenant des scores F1 de 97,04 % et 88,82 % respectivement pour les entités législatives et les entités d'affaires juridiques. Ces résultats démontrent la faisabilité du jeu de données proposé pour les applications juridiques.