7ヶ月前

自然言語処理

データセット

マルチタスク学習

AIインフラストラクチャ

アプローチ／フレームワーク

自然言語処理

Te\'ofilo Em\'\idio de Campos Pedro Henrique Luz de Araujo Nilton Correia da Silva Fabricio Ataides Braz

概要

本稿では、ブラジル最高裁判所のデジタル化された法的文書から構築された新規データセットVICTORについて述べる。このデータセットは、45,000件以上の上訴案件から構成されており、約692,000件の文書（約460万ページ）を含んでいる。データセットにはラベル付きのテキストデータが含まれており、文書タイプ分類およびテーマ割り当て（マルチラベル問題）の2種類のタスクをサポートしている。本研究では、Bag-of-Wordsモデル、畳み込みニューラルネットワーク（CNN）、再帰型ニューラルネットワーク（RNN）、ブースティング手法を用いたベースライン結果を提示する。また、訴訟文書の順序的性質を活かすために線形チェーン型条件付き確率場（Linear-chain Conditional Random Fields, CRF）を用いた実験も行い、文書タイプ分類においてその有効性を確認した。さらに、ドメイン知識を活用して情報量の少ない文書ページを除外する手法と、すべてのページを用いる従来の手法を比較した。予想に反して、裁判所の専門家が期待した結果とは異なり、すべての利用可能なデータを活用する方法がより優れた性能を示した。本データセットは、サイズと内容の異なる3種類のバージョンとして公開されており、より優れたモデルや手法の探索を促進することを目的としている。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

自然言語処理

データセット

マルチタスク学習

AIインフラストラクチャ

アプローチ／フレームワーク

自然言語処理

Te\'ofilo Em\'\idio de Campos Pedro Henrique Luz de Araujo Nilton Correia da Silva Fabricio Ataides Braz

概要

本稿では、ブラジル最高裁判所のデジタル化された法的文書から構築された新規データセットVICTORについて述べる。このデータセットは、45,000件以上の上訴案件から構成されており、約692,000件の文書（約460万ページ）を含んでいる。データセットにはラベル付きのテキストデータが含まれており、文書タイプ分類およびテーマ割り当て（マルチラベル問題）の2種類のタスクをサポートしている。本研究では、Bag-of-Wordsモデル、畳み込みニューラルネットワーク（CNN）、再帰型ニューラルネットワーク（RNN）、ブースティング手法を用いたベースライン結果を提示する。また、訴訟文書の順序的性質を活かすために線形チェーン型条件付き確率場（Linear-chain Conditional Random Fields, CRF）を用いた実験も行い、文書タイプ分類においてその有効性を確認した。さらに、ドメイン知識を活用して情報量の少ない文書ページを除外する手法と、すべてのページを用いる従来の手法を比較した。予想に反して、裁判所の専門家が期待した結果とは異なり、すべての利用可能なデータを活用する方法がより優れた性能を示した。本データセットは、サイズと内容の異なる3種類のバージョンとして公開されており、より優れたモデルや手法の探索を促進することを目的としている。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています