
要約
英語の質問に対する意味を保持しつつ、表面的な表現を変更した同義表現(paraphrase)を生成する手法を提案する。本モデルは、訓練目的の丁寧な選定と原理的な情報ボトルネック(information bottleneck)を組み合わせることで、意味と表現形式を分離した潜在表現空間を導出する。エンコーダ・デコーダモデルを訓練し、同じ意味を持つ質問を、同じ表面形を持つ例示(exemplar)から再構成させる。これにより、意味と表面形が分離された潜在空間が得られる。表面形は、ベクトル量子化変分オートエンコーダ(Vector-Quantized Variational Autoencoder)により離散的な潜在変数の集合として表現され、テスト時に分類器を用いて異なる表面形を選択可能となる。本手法の重要な特徴として、外部のターゲット例示(target exemplars)へのアクセスを必要としない点がある。広範な実験および人間評価の結果、従来の手法と比較して、意味の保持と構文的革新性の両立において優れたトレードオフを達成できることを示した。