7ヶ月前

自然言語処理

データセット

AIインフラストラクチャ

アプローチ／フレームワーク

自然言語処理

Edoardo Federici Riccardo La Grassa Ignazio Gallo Nicola Landro

概要

テキスト要約は、与えられたテキストから関連する内容を含む短い要約を生成することを目的としている。イタリア語をはじめとする低リソース言語において、抽象的要約（abstractive summarization）のためのデータが不足していることから、本研究では2つの新しいオリジナルデータセットを提案する。これらは、イタリアのニュースサイトから収集した複数文からなる要約と対応する記事から構成され、またスペイン語の要約データセットを機械翻訳によって得たデータセットを含む。これらの2つのデータセットは、現在このタスクにおいてイタリア語で利用可能な唯一のデータセットである。これらのデータセットの品質を評価するため、T5-baseモデルおよびmBARTモデルを用いて学習を実施した結果、両モデルとも良好な性能が得られた。さらに、自動翻訳によって生成されたデータセット上で学習した同様のモデルと、同じ訓練言語における自動翻訳要約との比較を行ったところ、提案したデータセットから得られたモデルの優位性が明らかになった。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

自然言語処理

データセット

AIインフラストラクチャ

アプローチ／フレームワーク

自然言語処理

Edoardo Federici Riccardo La Grassa Ignazio Gallo Nicola Landro

概要

テキスト要約は、与えられたテキストから関連する内容を含む短い要約を生成することを目的としている。イタリア語をはじめとする低リソース言語において、抽象的要約（abstractive summarization）のためのデータが不足していることから、本研究では2つの新しいオリジナルデータセットを提案する。これらは、イタリアのニュースサイトから収集した複数文からなる要約と対応する記事から構成され、またスペイン語の要約データセットを機械翻訳によって得たデータセットを含む。これらの2つのデータセットは、現在このタスクにおいてイタリア語で利用可能な唯一のデータセットである。これらのデータセットの品質を評価するため、T5-baseモデルおよびmBARTモデルを用いて学習を実施した結果、両モデルとも良好な性能が得られた。さらに、自動翻訳によって生成されたデータセット上で学習した同様のモデルと、同じ訓練言語における自動翻訳要約との比較を行ったところ、提案したデータセットから得られたモデルの優位性が明らかになった。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています