1ヶ月前

質問生成モデルの報酬評価

Tom Hosking; Sebastian Riedel

要約

最近の質問生成手法では、機械翻訳の進歩に触発されたSeq2Seqアーキテクチャの変更が使用されています。これらのモデルは教師強制を使用して、一歩先の予測のみを最適化するように訓練されます。しかし、テスト時にはモデルに全体のシーケンスを生成させる必要があり、これにより生成プロセス中に誤差が伝播します（露出バイアス）。複数の研究者は、このバイアスをカウンタリングするために、訓練データとより密接に結びついていない報酬を最適化することを提案しており、強化学習を使用しています。我々は直接品質指標を最適化し、訓練データから直接学習した識別子を使用する新しい手法も提案しています。ポリシー勾配法を使用することで訓練と真実値との結合を緩和できることを確認し、これにより報酬として使用される指標が向上することを示しています。ヒューマン評価を行い、これらの指標が以前は質問の品質の良い代理指標であると想定されていましたが、人間の判断とは大きくずれており、モデルは単に報酬源の弱点を利用する方法を学習していることを示しました。