13日前
テキスト生成におけるモーメントキャリブレーション
Xingxing Zhang, Yiran Liu, Xun Wang, Pengcheng He, Yang Yu, Si-Qing Chen, Wayne Xiong, Furu Wei

要約
多くのテキスト生成タスクの入力と出力は、トークンの2つの系列に変換でき、Transformerをはじめとするシーケンス・トゥ・シーケンス学習モデルを用いてモデル化が可能である。これらのモデルは通常、出力テキスト系列の尤度を最大化するように訓練されるが、学習時には入力系列およびすべての正解(ゴールド)の先行トークンが与えられていると仮定している。一方、推論時には、モデルは露出バイアス(exposure bias)という問題に直面する。すなわち、ビームサーチにおいてモデルは正解トークンではなく、自身が以前に予測したトークンのみにアクセスできるためである。本論文では、テキスト生成のための新しいオンライン手法であるMoCa({\bf Mo}mentum {\bf Ca}libration)を提案する。MoCaは、ビームサーチと組み合わせて、モーメンタム移動平均生成器を用いて徐々に変化する(しかし一貫性のある)サンプルを動的に生成する手法であり、MoCaはこれらのサンプルのモデルスコアをその実際の品質と一致させるように学習する。CNN/DailyMail、XSum、SAMSum、Gigawordの4つのテキスト生成データセットにおける実験結果から、MoCaは従来のファインチューニングを用いた強力な事前学習済みTransformerモデルを一貫して改善でき、特にCNN/DailyMailおよびSAMSumデータセットにおいて、最新の最先端(state-of-the-art)性能を達成した。