6ヶ月前

自然言語処理

データセット

ドキュメント理解

AIインフラストラクチャ

自然言語処理

Carolina Scarton o Fern Alva-Manchego Lucia Specia Joachim Bingel Gustavo Paetzold

概要

現在のテキスト簡略化（Text Simplification: TS）に関する研究は、二つの中心的な課題によって妨げられている。第一に、高品質な並列簡略化データが極めて少ないこと、第二に、既存データに削除や置換といった簡略化操作の明示的なアノテーションが欠如していることである。最近導入されたNewselaコーパスにより、第一の課題は緩和されたものの、依然として簡略化は並列テキストからブラックボックス型のエンドツーエンドアプローチによって直接学習される必要があり、明示的なアノテーションからの学習は行われていない。このような複雑な文と簡略化された文の並列ペアは、しばしば極めて大きな違いを示すため、一般化が困難となる。また、エンドツーエンドモデルでは、データから実際に学習された内容の解釈が困難となる。本研究では、TSのタスクをその下位問題に分解する手法を提案する。まず、並列コーパス内における簡略化操作を自動的に同定する方法を設計し、これらのアノテーションに基づいたシーケンスラベリングアプローチを導入する。最後に、異なるアプローチがどのような変換をモデル化できるかに関する洞察を提供する。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

自然言語処理

データセット

ドキュメント理解

AIインフラストラクチャ

自然言語処理

Carolina Scarton o Fern Alva-Manchego Lucia Specia Joachim Bingel Gustavo Paetzold

概要

現在のテキスト簡略化（Text Simplification: TS）に関する研究は、二つの中心的な課題によって妨げられている。第一に、高品質な並列簡略化データが極めて少ないこと、第二に、既存データに削除や置換といった簡略化操作の明示的なアノテーションが欠如していることである。最近導入されたNewselaコーパスにより、第一の課題は緩和されたものの、依然として簡略化は並列テキストからブラックボックス型のエンドツーエンドアプローチによって直接学習される必要があり、明示的なアノテーションからの学習は行われていない。このような複雑な文と簡略化された文の並列ペアは、しばしば極めて大きな違いを示すため、一般化が困難となる。また、エンドツーエンドモデルでは、データから実際に学習された内容の解釈が困難となる。本研究では、TSのタスクをその下位問題に分解する手法を提案する。まず、並列コーパス内における簡略化操作を自動的に同定する方法を設計し、これらのアノテーションに基づいたシーケンスラベリングアプローチを導入する。最後に、異なるアプローチがどのような変換をモデル化できるかに関する洞察を提供する。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています