2ヶ月前

大規模弱教師付き事前学習を用いたビデオアクション認識

Ghadiyaram, Deepti ; Feiszli, Matt ; Tran, Du ; Yan, Xueting ; Wang, Heng ; Mahajan, Dhruv
大規模弱教師付き事前学習を用いたビデオアクション認識
要約

現在の完全教師ありビデオデータセットは、数10万本のビデオと1000未満のドメイン固有ラベルのみで構成されています。これは、高度なビデオアーキテクチャへの進歩を妨げています。本論文では、大量のウェブビデオ(6500万本以上)を使用してアクション認識タスク向けのビデオモデルを事前学習する方法について詳細に研究しています。主な実証的な発見は、ノイジーなソーシャルメディアのビデオやハッシュタグにもかかわらず、非常に大規模な事前学習が3つの挑戦的な公開アクション認識データセットでの最先端性能を大幅に向上させることです。さらに、弱教師ありビデオアクションデータセットの構築に関する3つの問いを検討します。第一に、アクションには物体との相互作用が含まれるため、転移学習にとって最も有益となる動詞-物体事前学習ラベル空間をどのように構築すべきでしょうか?第二に、フレームベースモデルはアクション認識においてかなり良い性能を示していますが、画像特徴量の良好な事前学習だけで十分なのか、それとも最適な転移学習のために時空間特徴量の事前学習も価値があるのでしょうか?第三に、長時間ビデオでは短時間ビデオよりも一般的にアクションが正確に局所化されにくいですが、アクションラベルがビデオレベルで提供される場合、固定されたビデオ数や分量の予算内で最高の性能を得るためにどのようなビデオクリップを選択すべきでしょうか?

大規模弱教師付き事前学習を用いたビデオアクション認識 | 最新論文 | HyperAI超神経