Command Palette

Search for a command to run...

4ヶ月前

VICTOR:ブラジル法的文書分類のためのデータセット

{Te{\'o}filo Em{\'\i}dio de Campos Pedro Henrique Luz de Araujo Nilton Correia da Silva Fabricio Ataides Braz}

VICTOR:ブラジル法的文書分類のためのデータセット

要約

本稿では、ブラジル最高裁判所のデジタル化された法的文書から構築された新規データセットVICTORについて述べる。このデータセットは、45,000件以上の上訴案件から構成されており、約692,000件の文書(約460万ページ)を含んでいる。データセットにはラベル付きのテキストデータが含まれており、文書タイプ分類およびテーマ割り当て(マルチラベル問題)の2種類のタスクをサポートしている。本研究では、Bag-of-Wordsモデル、畳み込みニューラルネットワーク(CNN)、再帰型ニューラルネットワーク(RNN)、ブースティング手法を用いたベースライン結果を提示する。また、訴訟文書の順序的性質を活かすために線形チェーン型条件付き確率場(Linear-chain Conditional Random Fields, CRF)を用いた実験も行い、文書タイプ分類においてその有効性を確認した。さらに、ドメイン知識を活用して情報量の少ない文書ページを除外する手法と、すべてのページを用いる従来の手法を比較した。予想に反して、裁判所の専門家が期待した結果とは異なり、すべての利用可能なデータを活用する方法がより優れた性能を示した。本データセットは、サイズと内容の異なる3種類のバージョンとして公開されており、より優れたモデルや手法の探索を促進することを目的としている。

ベンチマーク

ベンチマーク方法論指標
multi-label-text-classification-on-bvictorXGBoost
Average F1: 0.8843
Weighted F1: 0.8957
multi-label-text-classification-on-bvictorSVM
Average F1: 0.7761
Weighted F1: 0.8235
multi-label-text-classification-on-bvictorNB
Average F1: 0.6335
Weighted F1: 0.6955
multi-label-text-classification-on-mvictorSVM
Average F1: 0.6642
Weighted F1: 0.8137
multi-label-text-classification-on-mvictorNB
Average F1: 0.3797
Weighted F1: 0.6062
multi-label-text-classification-on-mvictorXGBoost
Average F1: 0.8882
Weighted F1: 0.9072
multi-label-text-classification-on-svictorSVM
Average F1: 0.8246
Weighted F1: 0.8231
multi-label-text-classification-on-svictorNB
Average F1: 0.5121
Weighted F1: 0.4875
multi-label-text-classification-on-svictorXGBoost
Average F1: 0.8887
Weighted F1: 0.8634
text-classification-on-mvictor-typeBiLSTM
Average F1: 0.7092
Weighted F1: 0.9433
text-classification-on-mvictor-typeCNN
Average F1: 0.7061
Weighted F1: 0.9464
text-classification-on-mvictor-typeSVM
Average F1: 0.6792
Weighted F1: 0.9288
text-classification-on-mvictor-typeCNN + CRF
Average F1: 0.7505
Weighted F1: 0.9537
text-classification-on-mvictor-typeNB
Average F1: 0.4772
Weighted F1: 0.8477
text-classification-on-svictor-typeSVM
Average F1: 0.7632
Weighted F1: 0.9425
text-classification-on-svictor-typeBiLSTM
Average F1: 0.7281
Weighted F1: 0.9465
text-classification-on-svictor-typeNB
Average F1: 0.5979
Weighted F1: 0.8893
text-classification-on-svictor-typeCNN + CRF
Average F1: 0.7740
Weighted F1: 0.9533
text-classification-on-svictor-typeCNN
Average F1: 0.7584
Weighted F1: 0.9472

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
VICTOR:ブラジル法的文書分類のためのデータセット | 論文 | HyperAI超神経