2ヶ月前

歴史の重要性を高める:視覚対話のための履歴優位シーケンストレーニング

Tianhao Yang; Zheng-Jun Zha; Hanwang Zhang
歴史の重要性を高める:視覚対話のための履歴優位シーケンストレーニング
要約

私たちは視覚対話における複数ラウンドの応答生成を研究しています。この研究では、視覚的な背景に基づく会話履歴に従って応答が生成されます。画像、Q&A 履歴、および現在の質問という三つの要素が与えられた場合、既存のすべての手法は監督学習パラダイムにおいてエンコーダー-デコーダー(codec)方式を採用しています:マルチモーダルエンコーダーが三つ組を特徴ベクトルにエンコードし、その出力がデコーダーに供給されて現在の回答を生成します。この過程は、正解データ(ground-truth)によって監督されます。しかし、この従来の監督学習は不完全な履歴の影響を取り入れていません。これにより視覚対話の会話的な性質が侵害され、codec は履歴バイアスを学習する傾向が強まり、コンテクスト推論を行う能力が低下します。これを解決するために、強化学習におけるアクター-クリティック方策勾配(actor-critic policy gradient)から着想を得て、新しい訓練パラダイムである History Advantage Sequence Training (HAST) を提案しました。具体的には、意図的に履歴に誤った回答を導入し、不利なクリティック(adverse critic)を得ることで、過去の誤りが codec の将来の行動にどのように影響を与えるかを History Advantage — 正解データに基づく報酬と不利なクリティックとの差から得られる量 — によって評価します。さらに、codec が履歴に対してより敏感になるようにするため、History-Aware Co-Attention Network (HACAN) という新しい注意ネットワークを提案しました。HAST を使用することで HACAN は効果的に訓練できます。VisDial v0.9 & v1.0 および GuessWhat?! の3つのベンチマークでの実験結果は、提案した HAST ストラテジーが現行の最先端の監督学習手法よりも一貫して優れていることを示しています。

歴史の重要性を高める:視覚対話のための履歴優位シーケンストレーニング | 最新論文 | HyperAI超神経