11日前

テキストを保持しつつ活用する!意味的整合性を確保したエンドツーエンド型ニューラルデータtoテキスト生成

Hamza Harkous, Isabel Groves, Amir Saffari
テキストを保持しつつ活用する!意味的整合性を確保したエンドツーエンド型ニューラルデータtoテキスト生成
要約

エンド・ツー・エンド型のニューラルデータからテキスト(D2T)生成は、近年、パイプライン型アーキテクチャの代替手段として注目されている。しかし、新たなドメインへの一般化能力や意味的に整合性のあるテキスト生成という点で課題に直面している。本研究では、データ表現やターゲットドメインについて最小限の仮定しか行わない、エンド・ツー・エンド型のデータからテキスト生成システム「DataTuner」を提案する。本システムは、ファインチューニングされた言語モデルと意味的整合性分類器を組み合わせた二段階生成・再ランク化アプローチを採用している。各モジュールは、データセット固有のヒューリスティクスやエンティティのデレキシカル化、後処理を必要とせずにエンド・ツー・エンドで学習される。実験の結果、DataTunerはLDC2017T10、WebNLG、ViGGO、Cleaned E2Eの4つの主要D2Tデータセットにおいて、自動評価指標で最先端の性能を達成した。人間のアノテーターによる評価では、生成テキストの流暢性が人間が作成した参照テキストと同等またはそれを上回る水準に達した。さらに、DataTunerに搭載されたモデルベースの意味的整合性スコアリング手法が、従来のヒューリスティクスに基づく評価手法よりも優れた評価ツールであることを示した。本研究で生成されたテキストは、4つのデータセットすべてにおいて、従来の最先端手法と比較して顕著に高い意味的整合性を実現している。

テキストを保持しつつ活用する!意味的整合性を確保したエンドツーエンド型ニューラルデータtoテキスト生成 | 最新論文 | HyperAI超神経