8ヶ月前

概要

本稿では、エゴセントリック活動認識のためのエンドツーエンドで学習可能な深層ニューラルネットワークモデルを提案します。当該モデルは、エゴセントリック活動が動画内の物体とその位置によって高度に特徴付けられるという観察に基づいています。これに基づき、活動に関連する物体が含まれる領域に注目する空間注意機構を開発しました。私たちは、汎用画像認識のために事前学習されたCNNからのクラス固有の活性化を用いて、各フレームに対して極めて専門的な注意マップを学習し、これを畳み込みLSTMを用いた動画の時空間エンコーディングに利用します。当該モデルは、生の動画レベルの活動クラスラベルを使用して弱教師あり設定で学習されます。それでも、標準的なエゴセントリック活動ベンチマークにおいて、手動セグメンテーションや物体位置の強教師あり監督を利用して訓練された現行最良の手法よりも最大+6ポイント高い認識精度を達成しています。私たちはネットワークが生成した注意マップを視覚的に分析し、ネットワークが動画フレーム内に存在する関連物体を成功裏に識別していることを明らかにしました。これは強い認識性能を説明する可能性があります。また、設計選択肢に関する広範なアブレーション分析についても議論しています。（注：「アブレーション分析」は一般的な訳語ですが、「ablation analysis」の意味を完全に理解していない読者向けに括弧内に原文を付記しました）

ソースPDF