6ヶ月前

概要

複数のビジネスシーンでは、構造化された入力データから自動的に記述的で人間が読みやすいテキストを生成する必要がある。そのため、サッカーのレポートや天気・金融レポート、医療レポート、人物の略歴など、さまざまな下流タスク向けに、事実からテキストを生成するシステム（Fact-to-Text Generation, F2T）が開発されてきた。しかし、これまでのF2T生成に関する研究は、関連データセットの豊富さを背景に、主に英語に集中していた。近年になって、複数言語間での生成を可能にするクロスリンガル事実からテキスト生成（Cross-lingual Fact-to-Text, XF2T）という課題が提起され、8言語を対象としたデータセットXALIGNが提供された。しかし、実際のXF2T生成問題に関する包括的な研究はこれまで存在しなかった。本研究では、パンジャブ語、マラヤーラム語、アサム語、オリヤ語の4言語についてのアノテーションデータをXALIGNデータセットに追加し、拡張版の多言語データセットXALIGNV2を構築した。本研究では、代表的なTransformerベースのテキスト生成モデルを用いて、XALIGNV2上で広範な実験を実施した。さらに、さまざまなテキスト生成戦略——包括的な事前学習のバリエーション、事実に敏感な埋め込み、構造に配慮した入力エンコーディング——の性能を検証した。広範な実験の結果、事実に敏感な埋め込みと構造に配慮した入力エンコーディングを組み合わせた多言語mT5モデルが、12言語全体において平均的に最も優れた性能を示した。本研究で開発したコード、データセット、モデルをすべて公開し、この取り組みが、この重要な分野におけるさらなる研究進展に貢献することを期待している。

ソースPDF