2ヶ月前

両者の最良を兼ね備えた:識別学習から生成対話モデルへの知識転送

Jiasen Lu; Anitha Kannan; Jianwei Yang; Devi Parikh; Dhruv Batra
両者の最良を兼ね備えた:識別学習から生成対話モデルへの知識転送
要約

私たちはニューラルシーケンスモデル、特にグラウンデッドダイアログ生成のための新しい学習フレームワークを提案します。これらのモデルの標準的な学習パラダイムは最大尤度推定(MLE)であり、人間の応答のクロスエントロピーを最小化することです。さまざまな領域において、MLEで学習された生成型ニューラルダイアログモデル(G)が「安全」で一般的な応答(「わかりません」「言えません」)を生成する傾向があるという問題が繰り返し指摘されています。一方、候補の人間の応答リストをランク付けするために訓練された識別型ダイアログモデル(D)は、自動評価指標、応答の多様性、情報量の面で生成型モデルを上回っています。しかし、Dは実用的ではないという欠点があります。なぜなら、ユーザーとの実際の会話には展開できないからです。私たちの研究では、GとDの両方の長所を兼ね備えたモデルを目指しています。つまり、Gの実用的な有用性とDの優れた性能を知識転送を通じて達成します。主な貢献は、Dからの勾配を受け取る端到端学習可能な生成型ビジュアルダイアログモデルです。ここでGは、Gからサンプリングされたシーケンスに対する知覚的(非対抗的)損失としてDからの勾配を受け取ります。私たちは最近提案された離散分布へのガムベル・ソフトマックス(GS)近似を利用しており、具体的にはGSサンプラーの一連のRNNとストレートスルー勾配推定器を使用して端到端での微分可能性を実現しています。また、ビジュアルダイアログ用に強力なエンコーダーを導入し、回答エンコーディングに自己注意機構を使用するとともに計量学習損失を用いてDが回答応答における意味的類似性をよりよく捉えるように支援しています。全体的に見ると、提案したモデルはVisDialデータセットにおいて既存最先端技術よりも大幅に高性能であることが示されており(recall@10で2.67%向上)。ソースコードはhttps://github.com/jiasenlu/visDial.pytorchからダウンロードできます。

両者の最良を兼ね備えた:識別学習から生成対話モデルへの知識転送 | 最新論文 | HyperAI超神経