17日前

フランス語における法的条文検索データセット

Antoine Louis, Gerasimos Spanakis
フランス語における法的条文検索データセット
要約

法定条文検索とは、法的質問に関連する法律条文を自動的に抽出するタスクである。近年の自然言語処理技術の進展により、多くの法的タスクに対して注目が集まっているが、大規模かつ高品質なアノテーション付きデータセットの不足により、法定条文検索は依然としてほとんど研究が進んでいない。この課題を克服するため、本研究ではベルギー法条文検索データセット(BSARD: Belgian Statutory Article Retrieval Dataset)を提案する。BSARDは、経験豊富な法曹関係者が22,600条以上に及ぶベルギー法条文のコアプスから関連する条文をラベル付けした、1,100件以上のフランス語表記の法的質問から構成されている。BSARDを用いて、語彙的アーキテクチャと密度的アーキテクチャの両方を含む、最先端の検索アプローチをゼロショットおよび教師ありの設定でベンチマーク評価した。その結果、微調整された密度的検索モデルが他のシステムを大きく上回ることが明らかになった。最良のベースラインモデルではR@100が74.8%を達成し、このタスクの実現可能性が示された一方で、さらなる改善の余地があることも示唆している。ドメインの特異性およびタスクの性質から、BSARDは今後の法的情報検索研究における独自の挑戦課題として位置づけられる。本データセットおよびソースコードは、公開されている。