HyperAI

LawInstruct : Le Premier Ensemble De Données À Grande Échelle D'instructions Juridiques

LawInstruct est le premier ensemble de données d'instructions à grande échelle pour le domaine juridique. Cet ensemble de données a été créé conjointement par l'Université de Stanford, l'Université Johns Hopkins et d'autres institutions, et a été publié en avril 2024. LawInstruct a été créé pour combler les lacunes des ensembles de données existants pour les tâches juridiques et accélérer le développement de modèles dans le domaine juridique.

  1. Caractéristiques du jeu de données:
    • Couverture : LawInstruct couvre 17 juridictions et 24 langues, garantissant une large applicabilité et une diversité de l'ensemble de données.
    • Échelle et diversité : Contient 12 millions d'exemples de formation, couvrant une variété de tâches juridiques telles que la réponse aux questions, l'implication, le résumé et l'extraction d'informations.
  2. Structure du jeu de données:
    • Chaque exemple est présenté dans un format d’instructions personnalisé, garantissant la cohérence et l’opérabilité des données.
    • Il intègre 58 ensembles de données annotées de haute qualité provenant de différentes tâches juridiques et domaines professionnels.
  3. Mise en œuvre technique:
    • Nous avons utilisé MultiLegalPile, un corpus juridique multilingue de 689 Go, pour fournir des supports de pré-formation riches pour le modèle.
  4. Améliorations des performances:
    • En ajustant les instructions sur LawInstruct, la précision équilibrée du modèle Flan-T5 XL sur LegalBench est considérablement améliorée, vérifiant l'impact positif de l'ensemble de données sur les performances du modèle.
  5. Recherches et articles:
LawInstruct.torrent
Partage 1Téléchargement 1Terminés 89Téléchargements totaux 199
  • LawInstruct/
    • README.md
      2.09 KB
    • README.txt
      4.18 KB
      • data/
        • lawinstruct.zip
          9.84 GB