17日前

LeNER-Br:ブラジル法的テキストにおける固有表現抽出のためのデータセット

{Teófilo E. de Campos, Samuel Couto, Pedro H. Luz de Araujo, Paulo Bermejo, Matheus Stauffer, Renato R. R. de Oliveira}
要約

固有表現抽出(Named Entity Recognition)システムは、法的文書から情報を抽出する潜在能力を有しており、これにより情報検索や意思決定プロセスの質が向上する可能性がある。本論文では、ブラジル法的文書における固有表現抽出を目的としたデータセットを提示する。他のポルトガル語用データセットとは異なり、本データセットはすべて法的文書から構成されている。人物、場所、時間、組織といった一般的な固有表現に加え、法律条文および法的事件(裁判例)を対象とした特別なタグも含んでいる。ベースライン結果の確立のため、まずパラモパマ(Paramopama)という他のポルトガル語データセットを用いて実験を実施した。その評価結果から、LSTM-CRFモデルが従来報告された結果よりも顕著に優れた性能を示すことが明らかになった。その後、本研究で提案するデータセット上でLSTM-CRFを再学習したところ、法的条文(Legislation)固有表現に対して97.04%、法的事件(Legal case)固有表現に対して88.82%のF1スコアを達成した。これらの結果は、本研究で提示したデータセットが法的応用において実用可能であることを示している。