HyperAIHyperAI

Command Palette

Search for a command to run...

質問生成モデルの報酬評価

Tom Hosking Sebastian Riedel

概要

最近の質問生成手法では、機械翻訳の進歩に触発されたSeq2Seqアーキテクチャの変更が使用されています。これらのモデルは教師強制を使用して、一歩先の予測のみを最適化するように訓練されます。しかし、テスト時にはモデルに全体のシーケンスを生成させる必要があり、これにより生成プロセス中に誤差が伝播します(露出バイアス)。複数の研究者は、このバイアスをカウンタリングするために、訓練データとより密接に結びついていない報酬を最適化することを提案しており、強化学習を使用しています。我々は直接品質指標を最適化し、訓練データから直接学習した識別子を使用する新しい手法も提案しています。ポリシー勾配法を使用することで訓練と真実値との結合を緩和できることを確認し、これにより報酬として使用される指標が向上することを示しています。ヒューマン評価を行い、これらの指標が以前は質問の品質の良い代理指標であると想定されていましたが、人間の判断とは大きくずれており、モデルは単に報酬源の弱点を利用する方法を学習していることを示しました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています