
要約
構造化データからのテキスト生成に向けた深層学習手法に関する研究は多数存在するが、そのほとんどは英語に限定されている。本論文では、非英語言語におけるデータからテキストへの生成タスクにおいて、機械翻訳に基づく事前学習(pre-training)の有効性を検討する。構造化データは一般的に英語で表現されるため、他の言語へのテキスト生成には翻訳、音写(transliteration)、コピーといった要素が含まれるが、これらはすでにニューラル機械翻訳システムに組み込まれている。さらに、データからテキストへのコーパスは通常小規模であるため、事前学習の恩恵を大きく受けることができる。チェコ語(語形変化が複雑な言語)を対象とした実験の結果、自動評価指標および人間評価の両面で、エンド・トゥ・エンドのモデルを著しく高い性能で学習可能であることが示された。また、本手法が低データ状況下での性能向上や、未観測のスロット値(slot values)に対してのロバスト性といった、望ましい特性を有していることも明らかになった。