Command Palette
Search for a command to run...
{Te{\'o}filo Em{\'\i}dio de Campos Pedro Henrique Luz de Araujo Nilton Correia da Silva Fabricio Ataides Braz}

要約
本稿では、ブラジル最高裁判所のデジタル化された法的文書から構築された新規データセットVICTORについて述べる。このデータセットは、45,000件以上の上訴案件から構成されており、約692,000件の文書(約460万ページ)を含んでいる。データセットにはラベル付きのテキストデータが含まれており、文書タイプ分類およびテーマ割り当て(マルチラベル問題)の2種類のタスクをサポートしている。本研究では、Bag-of-Wordsモデル、畳み込みニューラルネットワーク(CNN)、再帰型ニューラルネットワーク(RNN)、ブースティング手法を用いたベースライン結果を提示する。また、訴訟文書の順序的性質を活かすために線形チェーン型条件付き確率場(Linear-chain Conditional Random Fields, CRF)を用いた実験も行い、文書タイプ分類においてその有効性を確認した。さらに、ドメイン知識を活用して情報量の少ない文書ページを除外する手法と、すべてのページを用いる従来の手法を比較した。予想に反して、裁判所の専門家が期待した結果とは異なり、すべての利用可能なデータを活用する方法がより優れた性能を示した。本データセットは、サイズと内容の異なる3種類のバージョンとして公開されており、より優れたモデルや手法の探索を促進することを目的としている。
ベンチマーク
| ベンチマーク | 方法論 | 指標 |
|---|---|---|
| multi-label-text-classification-on-bvictor | XGBoost | Average F1: 0.8843 Weighted F1: 0.8957 |
| multi-label-text-classification-on-bvictor | SVM | Average F1: 0.7761 Weighted F1: 0.8235 |
| multi-label-text-classification-on-bvictor | NB | Average F1: 0.6335 Weighted F1: 0.6955 |
| multi-label-text-classification-on-mvictor | SVM | Average F1: 0.6642 Weighted F1: 0.8137 |
| multi-label-text-classification-on-mvictor | NB | Average F1: 0.3797 Weighted F1: 0.6062 |
| multi-label-text-classification-on-mvictor | XGBoost | Average F1: 0.8882 Weighted F1: 0.9072 |
| multi-label-text-classification-on-svictor | SVM | Average F1: 0.8246 Weighted F1: 0.8231 |
| multi-label-text-classification-on-svictor | NB | Average F1: 0.5121 Weighted F1: 0.4875 |
| multi-label-text-classification-on-svictor | XGBoost | Average F1: 0.8887 Weighted F1: 0.8634 |
| text-classification-on-mvictor-type | BiLSTM | Average F1: 0.7092 Weighted F1: 0.9433 |
| text-classification-on-mvictor-type | CNN | Average F1: 0.7061 Weighted F1: 0.9464 |
| text-classification-on-mvictor-type | SVM | Average F1: 0.6792 Weighted F1: 0.9288 |
| text-classification-on-mvictor-type | CNN + CRF | Average F1: 0.7505 Weighted F1: 0.9537 |
| text-classification-on-mvictor-type | NB | Average F1: 0.4772 Weighted F1: 0.8477 |
| text-classification-on-svictor-type | SVM | Average F1: 0.7632 Weighted F1: 0.9425 |
| text-classification-on-svictor-type | BiLSTM | Average F1: 0.7281 Weighted F1: 0.9465 |
| text-classification-on-svictor-type | NB | Average F1: 0.5979 Weighted F1: 0.8893 |
| text-classification-on-svictor-type | CNN + CRF | Average F1: 0.7740 Weighted F1: 0.9533 |
| text-classification-on-svictor-type | CNN | Average F1: 0.7584 Weighted F1: 0.9472 |