
要約
表形式に構造化されたデータから記述文を生成する方法について、従来のニューラルエンコーダデコーダモデルを用いたアプローチは、生成結果の多様性に欠けるという課題を抱えている。本研究では、表現構造を豊かにし、多様な出力を実現するためには、オープンなテンプレートセットの活用が不可欠であると主張する。しかしながら、このようなテンプレートを学習することは困難であり、大規模な対応する「表—記述」コーパスが必要となるため、実用的に入手可能なケースは稀である。本論文では、対応するペアデータと非対応データの両方を活用して、再利用可能な「テンプレート」を自動的に学習する問題に着目する。そこで、我々は、データテーブルからテキスト記述を生成するための新規手法である変分テンプレートマシン(Variational Template Machine: VTM)を提案する。本研究の貢献は以下の通りである:a) 隠れ空間において、テキストテンプレートと意味的コンテンツ情報を明示的に分離するための特化したモデルアーキテクチャおよび損失関数を設計した;b) 小規模な平行データと、対応するテーブルが存在しない大規模な非構造化テキストを活用することで、テンプレート学習を豊かにした。異なる複数のドメインからなるデータセットにおける実験結果から、VTMが優れた自然さと品質を維持しつつ、より多様な記述を生成できることを示した。