17日前

TNT-NLG、システム1:統計的NLGを用いてクラウドソーシングデータを大規模に拡張し、ニューラル生成に活用する

{Marilyn A. Walker, Stephanie Lukin, Shubhangi Tandon, Shereen Oraby, Lena Reed}
要約

ニューラル機械翻訳システムにおけるシーケンス・トゥ・シーケンス学習の成功(Sutskever et al., 2014)以降、他の問題領域における言語生成へのその適用可能性に対する関心が高まっている。自然言語生成(NLG)分野においては、意味表現(MR)から自然言語(NL)文を一括して学習・生成するエンドツーエンド(E2E)ニューラルモデルへの関心が著しく高まっている。本論文では、E2E NLGチャレンジへの初回システム提出として、レストラン領域における意味表現から自然言語表現を生成する「TNT-NLG System 1」を紹介する。本システムでは、トレーニングデータセットを大幅に拡張することで、生成性能の向上を図った。この目的のために、Dusekら(2016a)のオープンソースベースラインモデルおよびコンテキスト対応型ニューラル言語生成モデルを基盤に、2つのモデルを構築した。E2E生成チャレンジデータセットに含まれる意味表現と自然言語のペアを出発点とし、PERSONAGE(Mairesse and Walker, 2010)と呼ばれる統計的生成器を用いて、意味表現から多様な自然言語表現を生成することで、トレーニングデータの規模を拡大した。拡張されたデータをコンテキスト入力として、提案モデルに供給した。さらに、自動評価指標および人間による評価を用いた評価結果を提示し、今後の研究課題についても述べる。

TNT-NLG、システム1:統計的NLGを用いてクラウドソーシングデータを大規模に拡張し、ニューラル生成に活用する | 最新論文 | HyperAI超神経