HyperAIHyperAI

Command Palette

Search for a command to run...

テキスト生成におけるモーメントキャリブレーション

Xingxing Zhang Yiran Liu Xun Wang Pengcheng He Yang Yu Si-Qing Chen Wayne Xiong Furu Wei

概要

多くのテキスト生成タスクの入力と出力は、トークンの2つの系列に変換でき、Transformerをはじめとするシーケンス・トゥ・シーケンス学習モデルを用いてモデル化が可能である。これらのモデルは通常、出力テキスト系列の尤度を最大化するように訓練されるが、学習時には入力系列およびすべての正解(ゴールド)の先行トークンが与えられていると仮定している。一方、推論時には、モデルは露出バイアス(exposure bias)という問題に直面する。すなわち、ビームサーチにおいてモデルは正解トークンではなく、自身が以前に予測したトークンのみにアクセスできるためである。本論文では、テキスト生成のための新しいオンライン手法であるMoCa({\bf Mo}mentum {\bf Ca}libration)を提案する。MoCaは、ビームサーチと組み合わせて、モーメンタム移動平均生成器を用いて徐々に変化する(しかし一貫性のある)サンプルを動的に生成する手法であり、MoCaはこれらのサンプルのモデルスコアをその実際の品質と一致させるように学習する。CNN/DailyMail、XSum、SAMSum、Gigawordの4つのテキスト生成データセットにおける実験結果から、MoCaは従来のファインチューニングを用いた強力な事前学習済みTransformerモデルを一貫して改善でき、特にCNN/DailyMailおよびSAMSumデータセットにおいて、最新の最先端(state-of-the-art)性能を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています