Command Palette
Search for a command to run...
VICTOR:ブラジル法的文書分類のためのデータセット
VICTOR:ブラジル法的文書分類のためのデータセット
Te\'ofilo Em\'\idio de Campos Pedro Henrique Luz de Araujo Nilton Correia da Silva Fabricio Ataides Braz
概要
本稿では、ブラジル最高裁判所のデジタル化された法的文書から構築された新規データセットVICTORについて述べる。このデータセットは、45,000件以上の上訴案件から構成されており、約692,000件の文書(約460万ページ)を含んでいる。データセットにはラベル付きのテキストデータが含まれており、文書タイプ分類およびテーマ割り当て(マルチラベル問題)の2種類のタスクをサポートしている。本研究では、Bag-of-Wordsモデル、畳み込みニューラルネットワーク(CNN)、再帰型ニューラルネットワーク(RNN)、ブースティング手法を用いたベースライン結果を提示する。また、訴訟文書の順序的性質を活かすために線形チェーン型条件付き確率場(Linear-chain Conditional Random Fields, CRF)を用いた実験も行い、文書タイプ分類においてその有効性を確認した。さらに、ドメイン知識を活用して情報量の少ない文書ページを除外する手法と、すべてのページを用いる従来の手法を比較した。予想に反して、裁判所の専門家が期待した結果とは異なり、すべての利用可能なデータを活用する方法がより優れた性能を示した。本データセットは、サイズと内容の異なる3種類のバージョンとして公開されており、より優れたモデルや手法の探索を促進することを目的としている。