11日前

事前学習はいつ役立つのか?法科学における自己教師付き学習の評価とCaseHOLDデータセット

Lucia Zheng, Neel Guha, Brandon R. Anderson, Peter Henderson, Daniel E. Ho
事前学習はいつ役立つのか?法科学における自己教師付き学習の評価とCaseHOLDデータセット
要約

自己教師あり学習(self-supervised learning)は自然言語処理分野において急速な進展を遂げているが、研究者がリソース集約的なドメイン特化型事前学習(ドメイン事前学習)に着手すべきタイミングについてはまだ明確でない。法的文書における言語が広く特異性を持つと認識されているにもかかわらず、法的文書におけるドメイン事前学習による顕著な性能向上が実際に報告された例は極めて少ないという現象は、依然として謎である。本研究では、こうした現象の背景には、既存の法的NLPタスクが難易度が低く、ドメイン事前学習が有効となる条件を満たしていないことが原因であると仮説を立てた。これを解決するため、まず、引用された判例の関連判決(holding)を特定するための複数選択形式の質問が53,000問以上含まれる新しいデータセット「CaseHOLD(Case Holdings On Legal Decisions)」を提示する。このデータセットは法律家にとって基本的なタスクであり、法律的に意味のあるだけでなく、NLPの観点からも困難な課題である(BiLSTMベースラインでのF1スコアは0.4)。第二に、CaseHOLDおよび既存の法的NLPデータセットにおける性能向上を評価した。一般ドメインのコーパス(Google BooksおよびWikipedia)で事前学習されたTransformerアーキテクチャ(BERT)は性能向上を示したが、米国全裁判所の約350万件の判決文から構成される、BERTの学習コーパスよりも大きい独自の法的語彙を用いたドメイン事前学習は、CaseHOLDにおいて最も顕著な性能向上を達成した(F1スコアで7.2%の向上、BERT比で12%の改善)、また、他の2つの法的タスクにおいても一貫した性能向上が確認された。第三に、タスクと事前学習コーパスとの類似性が十分に高い場合にのみドメイン事前学習が有効であることを示した。3つの法的タスクにおける性能向上の程度は、タスクのドメイン特異性と直接的に相関していた。本研究の成果は、研究者がリソース集約的な事前学習に着手すべきタイミングを示すとともに、Transformerベースのアーキテクチャも、特有の法的言語を反映する埋め込み(embeddings)を学習していることを示している。

事前学習はいつ役立つのか?法科学における自己教師付き学習の評価とCaseHOLDデータセット | 最新論文 | HyperAI超神経