6ヶ月前

データセット

自然言語処理

ベンチマーク

AIインフラストラクチャ

自然言語処理

Teófilo E. de Campos Samuel Couto Pedro H. Luz de Araujo Paulo Bermejo Matheus Stauffer Renato R. R. de Oliveira

概要

固有表現抽出（Named Entity Recognition）システムは、法的文書から情報を抽出する潜在能力を有しており、これにより情報検索や意思決定プロセスの質が向上する可能性がある。本論文では、ブラジル法的文書における固有表現抽出を目的としたデータセットを提示する。他のポルトガル語用データセットとは異なり、本データセットはすべて法的文書から構成されている。人物、場所、時間、組織といった一般的な固有表現に加え、法律条文および法的事件（裁判例）を対象とした特別なタグも含んでいる。ベースライン結果の確立のため、まずパラモパマ（Paramopama）という他のポルトガル語データセットを用いて実験を実施した。その評価結果から、LSTM-CRFモデルが従来報告された結果よりも顕著に優れた性能を示すことが明らかになった。その後、本研究で提案するデータセット上でLSTM-CRFを再学習したところ、法的条文（Legislation）固有表現に対して97.04%、法的事件（Legal case）固有表現に対して88.82%のF1スコアを達成した。これらの結果は、本研究で提示したデータセットが法的応用において実用可能であることを示している。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

データセット

自然言語処理

ベンチマーク

AIインフラストラクチャ

自然言語処理

Teófilo E. de Campos Samuel Couto Pedro H. Luz de Araujo Paulo Bermejo Matheus Stauffer Renato R. R. de Oliveira

概要

固有表現抽出（Named Entity Recognition）システムは、法的文書から情報を抽出する潜在能力を有しており、これにより情報検索や意思決定プロセスの質が向上する可能性がある。本論文では、ブラジル法的文書における固有表現抽出を目的としたデータセットを提示する。他のポルトガル語用データセットとは異なり、本データセットはすべて法的文書から構成されている。人物、場所、時間、組織といった一般的な固有表現に加え、法律条文および法的事件（裁判例）を対象とした特別なタグも含んでいる。ベースライン結果の確立のため、まずパラモパマ（Paramopama）という他のポルトガル語データセットを用いて実験を実施した。その評価結果から、LSTM-CRFモデルが従来報告された結果よりも顕著に優れた性能を示すことが明らかになった。その後、本研究で提案するデータセット上でLSTM-CRFを再学習したところ、法的条文（Legislation）固有表現に対して97.04%、法的事件（Legal case）固有表現に対して88.82%のF1スコアを達成した。これらの結果は、本研究で提示したデータセットが法的応用において実用可能であることを示している。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

LeNER-Br：ブラジル法的テキストにおける固有表現抽出のためのデータセット | 記事 | HyperAI超神経