
要約
視覚キャプション生成においては印象的な成果が達成されていますが、写真ストリームから抽象的な物語を生成するタスクはまだ十分に開拓されていない問題です。キャプションとは異なり、物語にはより表現力豊かな言語スタイルがあり、画像には現れない多くの想像的な概念が含まれています。これにより、行動複製アルゴリズムには挑戦が伴います。さらに、物語の品質を自動評価する指標の制限により、手作りの報酬を使用した強化学習手法も全体的な性能向上に苦労しています。そこで、我々は人間のデモンストレーションから暗黙の報酬関数を学習し、その後学習された報酬関数で方策探索を最適化するための対抗的報酬学習(Adversarial REward Learning: AREL)フレームワークを提案します。自動評価では最先端(State-of-the-Art: SOTA)手法よりも僅かな性能向上が示されていますが、人間による評価では当アプローチがSOTAシステムよりもより人間らしい物語を生成することにおいて著しい改善を達成していることが明らかになりました。