16日前
契約発見:データセットと競争的なベースラインを備えたFew-Shot意味検索チャレンジ
Łukasz Borchmann, Dawid Wiśniewski, Andrzej Gretkowski, Izabela Kosmala, Dawid Jurkiewicz, Łukasz Szałkiewicz, Gabriela Pałka, Karol Kaczmarek, Agnieszka Kaliska, Filip Graliński

要約
我々は、法的文書からの意味的検索に関する新しい共有タスクを提案する。このタスクでは、「契約発見(contract discovery)」と呼ばれるものを行うもので、他の法的文書から類似する条項の例をいくつか提示された状態で、対象文書から法的条項を抽出する。このタスクは従来のNLI(自然言語推論)や法的情報抽出に関する共有タスクとは本質的に異なり、単一の文書、ページ、または段落ではなく、関連するテキストスパンを特定する必要がある点が特徴である。提案するタスクの仕様の後には、この分野の手法に対して統一されたフレームワークを用いた複数の解決策の評価が続く。その結果、最先端の事前学習済みエンコーダーでは、本タスクに対して満足のいく結果が得られないことが示された。一方で、言語モデル(Language Model, LM)ベースのアプローチは、特に教師なしのファインチューニングを適用した場合、優れた性能を発揮することが明らかになった。アブレーションスタディに加えて、利用可能な例の数に応じた関連テキスト断片の検出精度に関する問題にも対処した。本研究では、データセットおよび参照結果に加え、法的分野に特化した言語モデルも公開された。