
要約
本論文では、静止画における人間の活動ラベル予測にローカルおよびグローバルコンテキストを活用する深層畳み込みネットワークモデルを提案し、それぞれ数百のラベルを持つ2つの最新データセットで最先端の性能を達成しています。個々の人間インスタンスレベルでの監督不足に対処するために多重実例学習(Multiple Instance Learning)を使用し、訓練データの不均衡に対処するために重み付き損失関数(weighted loss)を採用しています。さらに、これらのデータセットで訓練された専門的な特徴量が、複数択形式の穴埋め問題(Visual Madlibs)を含む視覚的質問応答(Visual Question Answering: VQA)タスクにおいて精度向上にどのように寄与するかを示します。具体的には、人間の活動と人間-物体関係に関する2種類の質問を取り扱い、ImageNet分類タスクで訓練された一般的な特徴量よりも改善した結果を示しています。