Découverte de contrats : ensemble de données et défi de récupération sémantique à quelques exemples avec des bases de comparaison compétitives

Nous proposons une nouvelle tâche partagée portant sur la récupération sémantique à partir de textes juridiques, dans laquelle doit être réalisée une « découverte de contrats », consistant à extraire des clauses juridiques à partir de documents, à partir de quelques exemples de clauses similaires provenant d'autres actes juridiques. Cette tâche diffère substantiellement des tâches classiques de compréhension linguistique naturelle (NLI) et des tâches partagées en extraction d'information juridique (par exemple, il s'agit d'identifier une portion de texte plutôt qu'un document, une page ou un paragraphe entier). La spécification de la tâche proposée est suivie d'une évaluation de plusieurs solutions au sein d'un cadre unifié mis en place pour cette branche de méthodes. Il est démontré que les encodeurs pré-entraînés d'avant-garde échouent à fournir des résultats satisfaisants sur la tâche proposée. En revanche, les solutions basées sur les modèles linguistiques (Language Models) se révèlent plus performantes, en particulier lorsqu'une fine-tuning non supervisé est appliqué. Outre les études d'ablation, nous examinons également la question de l'exactitude de détection des fragments textuels pertinents en fonction du nombre d'exemples disponibles. En complément du jeu de données et des résultats de référence, des modèles linguistiques spécialisés dans le domaine juridique ont été rendus publiquement disponibles.