11日前
ToTTo:制御されたテーブルtoテキスト生成データセット
Ankur P. Parikh, Xuezhi Wang, Sebastian Gehrmann, Manaal Faruqui, Bhuwan Dhingra, Diyi Yang, Dipanjan Das

要約
我々は、12万を超える訓練例を有するオープンドメインの英語テーブルtoテキストデータセット「ToTTo」を提示する。本データセットは、制御された生成タスクを提示するもので、Wikipediaのテーブルと強調されたセルの集合が与えられた場合、1文の記述を生成することを目的としている。生成された目標テキストが自然であると同時に、元のテーブルの内容に忠実であるようにするため、アノテーターがWikipediaから抽出した既存の候補文を直接修正するというデータセット構築プロセスを導入した。本研究では、データセットおよびアノテーションプロセスに関する系統的な分析、および複数の最先端ベースラインモデルによる実験結果を提示する。現行の手法は一般的に文法的に流暢であるものの、テーブルに根拠のないフレーズを「幻覚(hallucinate)」する傾向があることから、本データセットは高精度な条件付きテキスト生成に関する有用な研究ベンチマークとして機能することが示唆される。