
要約
本研究提案は、構造化された「画像状況」——すなわち、動作とその動作に関連する意味的な役割を果たす名詞実体——を予測するために再帰型ニューラルネットワーク(RNN)モデルの使用を提唱します。従来の条件付き随機フィールド(CRFs)に依存する手法とは異なり、当システムでは専門的な動作予測ネットワークを使用し、その後に名詞予測用のRNNを配置しています。このシステムは、最近発表され難易度の高いimSituデータセットにおいて最先端の精度を達成しており、追加データで訓練されたCRFベースのモデルを含む既存の手法を上回っています。さらに、状況予測から学習した専門的な特徴量が、人間と物体との相互作用をより正確に描写する画像キャプショニングタスクへ転用可能であることを示しています。