LawInstruct、初の大規模な法的指導データセット
LawInstruct は、法律分野における初の大規模な指示データセットです。このデータセットはスタンフォード大学、ジョンズ・ホプキンス大学などが共同で作成したもので、2024年4月に公開される予定だ。 LawInstruct は、既存の法務タスク データセットのギャップを埋め、法的領域におけるモデルの開発を加速するために作成されました。
- データセットの特性:
- 対象範囲: LawInstruct は 17 の管轄区域と 24 の言語をカバーしており、データセットの幅広い適用性と多様性を確保しています。
- 規模と多様性: 質問応答、含意、要約、情報抽出などのさまざまな法務タスクをカバーする 1,200 万件のトレーニング例が含まれています。
- データセットの構造:
- 各例はカスタマイズされた指示形式で表示され、データの一貫性と操作性が保証されます。
- さまざまな法律業務や専門分野から得られた 58 個の高品質の注釈付きデータ セットが統合されています。
- 技術的な実装:
- MultiLegalPile は 689 GB の多言語法的コーパスであり、モデルに豊富な事前トレーニング資料を提供します。
- パフォーマンスの向上:
- LawInstruct の命令を調整することで、LegalBench 上の Flan-T5 XL モデルのバランスの取れた精度が大幅に向上し、モデルのパフォーマンスに対するデータセットのプラスの影響が実証されました。
- 研究と論文:
- 関連する研究結果が論文に掲載されました。FLawN-T5: 法的推論のための効果的な命令チューニングデータ混合の実証的検討「」では、LawInstructデータセットの構築過程と実験結果が詳細に記録されています。
LawInstruct.torrent
シーディング 1ダウンロード中 1ダウンロード完了 89総ダウンロード数 199