HyperAIHyperAI

Command Palette

Search for a command to run...

Klexikon:同時要約と簡素化を目的としたドイツ語データセット

Dennis Aumiller Michael Gertz

概要

従来、テキスト簡略化(Text Simplification)は、元のテキストとその簡略化版の文を対応付けて学習を行う単言語翻訳タスクとして扱われてきた。しかし、特に長文の入力文書に対しては、テキストの要約(あるいは関連性の低い内容を削除する)が簡略化プロセスにおいて重要な役割を果たすが、この点は現在のデータセットには反映されていない。同時に、英語以外の言語用のリソースは一般的に不足しており、新たな手法の学習には現実的でない状況にある。こうした課題に対処するため、長文の元テキストを同時に要約・簡略化できるシステムに求められる基本的な要件を提示する。さらに、ドイツ語ウィキペディアとドイツ語の子ども向け語彙集「Klexikon」を基に、テキストの簡略化と要約を統合する新しいデータセットの構築について述べる。本データセットは約2,900件のドキュメントから構成されており、特に要約の側面を強調した文書レベルの対応バージョンを公開する。また、統計的証拠を提示し、本リソースが簡略化タスクにも適していることを示す。コードとデータはGitHubで公開されている:https://github.com/dennlinger/klexikon


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています