8日前
動画キャプション生成における教師推奨学習を備えたオブジェクト関係グラフ
Ziqi Zhang, Yaya Shi, Chunfeng Yuan, Bing Li, Peijin Wang, Weiming Hu, Zhengjun Zha

要約
視覚情報と言語情報の両方を十分に活用することは、動画キャプション生成タスクにおいて極めて重要である。既存のモデルは、物体間の相互作用を無視することで視覚表現が不十分であり、また、長尾問題(long-tailed problem)により、内容に関連する語彙に対する十分な学習が行われていない。本論文では、新しいモデルと効果的な学習戦略を組み合わせた包括的な動画キャプションシステムを提案する。具体的には、物体関係グラフ(Object Relational Graph, ORG)に基づくエンコーダーを提案し、より詳細な相互作用特徴を捉えることで、視覚表現を豊かにする。同時に、成功した外部言語モデル(External Language Model, ELM)を活用して、豊富な言語知識をキャプションモデルに統合するための教師推薦学習(Teacher-Recommended Learning, TRL)手法を設計した。このTRL手法により、ELMがより意味的に類似した語彙候補を生成し、学習に用いられる正解語彙を拡張することで、長尾問題に対処する。MSVD、MSR-VTT、VATEXの3つのベンチマークにおける実験評価の結果、提案するORG-TRLシステムは最先端の性能を達成した。広範なアブレーションスタディおよび可視化により、本システムの有効性が裏付けられた。