
要約
法律的なタスクやデータセットは、言語モデルの能力を評価するための基準としてしばしば使用されます。しかし、公開されているアノテーション付きデータセットは稀です。本論文では、ドイツの消費者契約から抽出された3,764件の条項を法律専門家がアノテーションと法的評価を行ったコーパスAGB-DEを紹介します。このデータとともに、潜在的に無効な条項を検出するタスクの最初のベースラインを提示し、SVMベースラインと3つの微調整済みオープン言語モデルおよびGPT-3.5の性能を比較します。結果は、どの手法もF1スコアが0.54を超えないことから、このタスクの難しさを示しています。微調整済みモデルは精度においてしばしば優れていましたが、GPT-3.5はリコールにおいて他の手法を上回りました。誤りの分析からは、主要な課題が許容されるものとされないものの境界線よりも、複雑な条項の正確な解釈にある可能性があることが示唆されています。