7ヶ月前

概要

行動認識のカテゴリー数は急速に増加しています。これにより、各カテゴリーに対して従来のモデルを学習するための十分な訓練データを収集することがますます困難になっています。この問題は、「ゼロショットラーニング」（ZSL）という最近注目を集めているパラダイムによって改善される可能性があります。このフレームワークでは、視覚的な特徴と各カテゴリーの人間が解釈可能な意味論的説明との間のマッピングが構築され、訓練データがない場合でもカテゴリーを認識することができます。既存のZSL研究は主に画像データと属性ベースの意味論的表現に焦点を当てています。本論文では、現代のビデオ行動認識タスクにおけるゼロショット認識について取り上げ、セマンティックワードベクトル空間を共通空間としてビデオとカテゴリーラベルを埋め込む方法を使用します。これはより挑戦的であり、複雑な動作を含むビデオの時空特徴と意味論的空间との間のマッピングはより複雑で学習が難しいからです。私たちは、単純な自己学習とデータ拡張戦略がこのマッピングの効果性を大幅に向上させることを示します。HMDB51やUCF101などの人間行動データセットでの実験結果から、私たちの手法が最先端のゼロショット行動認識性能を達成していることが確認されました。

ソースPDF